Resumen: Este trabajo fin de grado aborda el problema de clasificar, de manera automática, los requisitos de los sistemas software. Este es un paso previo, que debemos solucionar, antes de automatizar muchas otras tareas del proceso de desarrollo del software. Entre ellas, por ejemplo, la de generar de manera automática dichos requisitos partiendo de estándares, manuales y/o procedimientos consolidados. No cabe duda que, en el contexto actual, la inteligencia artificial debe jugar un papel fundamental en estos procesos de automatización. Concretamente, las técnicas de procesamiento del lenguaje natural, apoyadas en los modelos de lenguaje, son el pilar que soportará dicha automatización. Esta memoria documenta cada una de las fases que se han llevado a cabo para medir la efectividad de diversos modelos de lenguaje a la hora de clasificar requisitos de software en funcionales y no funcionales. Estas fases incluyen desde la generación de un conjunto de datos, válido para el entrenamiento, validación y test de los modelos, hasta la estimación de valores estadísticos que midan el desempeño del dataset y de los propios modelos. El dataset trata de replicar los múltiples y diferentes contextos que aparecen en el mundo del desarrollo de software. Por ejemplo, los requisitos funcionales superan habitualmente en número a los no funcionales, de manera amplia. Esta característica diferencia a nuestro proyecto, ya que desde nuestro conocimiento, el dataset desarrollado es el más extenso, y realista, de los hasta ahora propuestos por la comunidad. La experimentación se ha diseñado de forma que pueda ser replicada por otros investigadores. Pudiendo además recabarse información del comportamiento de los distintos modelos en diversas situaciones. También se rehacen experimentos ya existentes en la literatura, posibilitando así la comparación con otros trabajos. El dataset, el código y los resultados relativos a la realización de este proyecto pueden encontrarse en el repositorio de GitHub "DaReC".