TAZ-TFG-2021-019


Sistema para categorización de textos en un ámbito nicho con pocos datos etiquetados

Escribano Pérez, Miguel
Gracia del Río, Jorge Carlos (dir.) ; Rodríguez Fernández, Ricardo Julio (dir.)

Universidad de Zaragoza, EINA, 2021
Informática e Ingeniería de Sistemas department, Lenguajes y Sistemas Informáticos area

Graduado en Ingeniería Informática

Abstract: El incremento exponencial de la generación de contenido en Internet ha obligado a automatizar tareas
de gestión que antes eran realizadas por humanos, lo cual ha impulsado un gran desarrollo de las
técnicas de Inteligencia Artificial. Estas nuevas herramientas pueden ser de ayuda a la hora de moderar
contenidos peligrosos difundidos en redes sociales, como la apología de los trastornos alimenticios.
En este trabajo se colabora con la Fundación APE para implementar un clasificador de texto que
detecte la promoción de la anorexia y la bulimia en mensajes de Twitter. Dicho clasificador será
integrado en un software de seguimiento de interacciones en redes sociales para monitorizar en tiempo
real la difusión de estos contenidos. El objetivo principal de este trabajo es estudiar las herramientas de
código abierto disponibles más relevantes para dicha tarea de clasificación de textos y compararlas en
el contexto concreto que nos ocupa (detección de mensajes promotores de trastornos alimenticios).
Adicionalmente, se ha generado un corpus de textos etiquetados como promotores o no promotores
de trastornos alimenticios expandiendo un corpus preexistente con mensajes recolectados de Internet.
Con él se han entrenado clasificadores de texto basados en cinco herramientas de procesamiento del
lenguaje natural distintas, FastText, SpaCy, Transformers, Custom_BoW y Custom_TF-IDF. Estas
dos últimas han sido implementadas manualmente como baseline de la comparativa. Además, se han
aplicado distintas formas de preprocesado de texto, incluido un corrector ortográfico propio, para
reducir el ruido en las muestras.
Los resultados obtenidos muestran una clara superioridad de las herramientas Transformers y FastText,
que han superado el 0.95 de F1-score, siendo mejores que los logrados por los otros clasificadores
estudiados. En concreto, FastText se considera el modelo más adecuado en este caso de estudio por
su excelente equilibrio entre rápido tiempo de respuesta y calidad del clasificado. Los resultados más
consistentes se han logrado con técnicas de preprocesado de textos poco intrusivas y se desaconseja el
uso de correctores ortográficos por su impacto en el tiempo de respuesta, que no resulta en mejoras
notables en la calidad de los resultados.
Como conclusión de este trabajo, se ha comprobado que es viable categorizar texto en lenguaje natural
con un corpus reducido de ejemplos, sin hardware dedicado ni conocimiento extenso de Inteligencia
Artificial. Trabajos futuros deben abordar cómo mejorar la calidad de etiquetado de los corpus de
datos generados, investigar si los resultados obtenidos son similares en otros casos de clasificación de
texto, y estudiar el uso de Machine Learning as a Service, como en el caso de OpenAI con GPT-3.


Tipo de Trabajo Académico: Trabajo Fin de Grado
Notas: Resumen disponible también en inglés.

Creative Commons License

El registro pertenece a las siguientes colecciones:
Academic Works > Trabajos Académicos por Centro > escuela-de-ingeniería-y-arquitectura
Academic Works > End-of-grade works




Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)