149256 20250127135741.0 TAZ-TFG-2024-4754 spa Murcia Martínez, Diego Automatic classification of software requirements: Creation of the dataset and training of language models Clasificación automática de requisitos de software: Creación del conjunto de datos y entrenamiento de modelos de lenguaje Zaragoza Universidad de Zaragoza 2024 by-nc-sa Creative Commons 3.0 http://creativecommons.org/licenses/by-nc-sa/3.0/ Este trabajo fin de grado aborda el problema de clasificar, de manera automática, los requisitos de los sistemas software. Este es un paso previo, que debemos solucionar, antes de automatizar muchas otras tareas del proceso de desarrollo del software. Entre ellas, por ejemplo, la de generar de manera automática dichos requisitos partiendo de estándares, manuales y/o procedimientos consolidados. No cabe duda que, en el contexto actual, la inteligencia artificial debe jugar un papel fundamental en estos procesos de automatización. Concretamente, las técnicas de procesamiento del lenguaje natural, apoyadas en los modelos de lenguaje, son el pilar que soportará dicha automatización. Esta memoria documenta cada una de las fases que se han llevado a cabo para medir la efectividad de diversos modelos de lenguaje a la hora de clasificar requisitos de software en funcionales y no funcionales. Estas fases incluyen desde la generación de un conjunto de datos, válido para el entrenamiento, validación y test de los modelos, hasta la estimación de valores estadísticos que midan el desempeño del dataset y de los propios modelos. El dataset trata de replicar los múltiples y diferentes contextos que aparecen en el mundo del desarrollo de software. Por ejemplo, los requisitos funcionales superan habitualmente en número a los no funcionales, de manera amplia. Esta característica diferencia a nuestro proyecto, ya que desde nuestro conocimiento, el dataset desarrollado es el más extenso, y realista, de los hasta ahora propuestos por la comunidad. La experimentación se ha diseñado de forma que pueda ser replicada por otros investigadores. Pudiendo además recabarse información del comportamiento de los distintos modelos en diversas situaciones. También se rehacen experimentos ya existentes en la literatura, posibilitando así la comparación con otros trabajos. El dataset, el código y los resultados relativos a la realización de este proyecto pueden encontrarse en el repositorio de GitHub "DaReC".<br /> Graduado en Ingeniería de Tecnologías y Servicios de Telecomunicación Derechos regulados por licencia Creative Commons 775048@unizar.es 618344 http://zaguan.unizar.es/record/149256/files/TAZ-TFG-2024-4754.pdf Memoria (spa) oai:zaguan.unizar.es:149256 driver trabajos-fin-grado 9 Los avances en inteligencia artificial actualmente están suponiendo una revolución tecnológica sin precedentes en cualquier industria. En el ámbito de la ingeniería de software, la generación de un nuevo conjunto de datos para el entrenamiento de modelos de lenguaje y un entorno de pruebas para medir su efectividad, constituyen dos contribuciones a la comunidad que pueden resultar de utilidad para la innovación y el desarrollo de la IA en un futuro. Merseguer Hernaiz, José Javier dir. Bernad Lusilla, Jorge Raul dir. Universidad de Zaragoza Informática e Ingeniería de Sistemas Lenguajes y Sistemas Informáticos TAZ TFG EINA 20241128214215.CREATION_DATE deposita:2025-01-27