000101354 001__ 101354
000101354 005__ 20210415110713.0
000101354 037__ $$aTAZ-TFG-2021-019
000101354 041__ $$aspa
000101354 1001_ $$aEscribano Pérez, Miguel
000101354 24200 $$aSystem for text classification of niche topic with low amount of tagged data
000101354 24500 $$aSistema para categorización de textos en un ámbito nicho con pocos datos etiquetados
000101354 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2021
000101354 500__ $$aResumen disponible también en inglés.
000101354 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000101354 520__ $$aEl incremento exponencial de la generación de contenido en Internet ha obligado a automatizar tareas<br />de gestión que antes eran realizadas por humanos, lo cual ha impulsado un gran desarrollo de las<br />técnicas de Inteligencia Artificial. Estas nuevas herramientas pueden ser de ayuda a la hora de moderar<br />contenidos peligrosos difundidos en redes sociales, como la apología de los trastornos alimenticios.<br />En este trabajo se colabora con la Fundación APE para implementar un clasificador de texto que<br />detecte la promoción de la anorexia y la bulimia en mensajes de Twitter. Dicho clasificador será<br />integrado en un software de seguimiento de interacciones en redes sociales para monitorizar en tiempo<br />real la difusión de estos contenidos. El objetivo principal de este trabajo es estudiar las herramientas de<br />código abierto disponibles más relevantes para dicha tarea de clasificación de textos y compararlas en<br />el contexto concreto que nos ocupa (detección de mensajes promotores de trastornos alimenticios).<br />Adicionalmente, se ha generado un corpus de textos etiquetados como promotores o no promotores<br />de trastornos alimenticios expandiendo un corpus preexistente con mensajes recolectados de Internet.<br />Con él se han entrenado clasificadores de texto basados en cinco herramientas de procesamiento del<br />lenguaje natural distintas, FastText, SpaCy, Transformers, Custom_BoW y Custom_TF-IDF. Estas<br />dos últimas han sido implementadas manualmente como baseline de la comparativa. Además, se han<br />aplicado distintas formas de preprocesado de texto, incluido un corrector ortográfico propio, para<br />reducir el ruido en las muestras.<br />Los resultados obtenidos muestran una clara superioridad de las herramientas Transformers y FastText,<br />que han superado el 0.95 de F1-score, siendo mejores que los logrados por los otros clasificadores<br />estudiados. En concreto, FastText se considera el modelo más adecuado en este caso de estudio por<br />su excelente equilibrio entre rápido tiempo de respuesta y calidad del clasificado. Los resultados más<br />consistentes se han logrado con técnicas de preprocesado de textos poco intrusivas y se desaconseja el<br />uso de correctores ortográficos por su impacto en el tiempo de respuesta, que no resulta en mejoras<br />notables en la calidad de los resultados.<br />Como conclusión de este trabajo, se ha comprobado que es viable categorizar texto en lenguaje natural<br />con un corpus reducido de ejemplos, sin hardware dedicado ni conocimiento extenso de Inteligencia<br />Artificial. Trabajos futuros deben abordar cómo mejorar la calidad de etiquetado de los corpus de<br />datos generados, investigar si los resultados obtenidos son similares en otros casos de clasificación de<br />texto, y estudiar el uso de Machine Learning as a Service, como en el caso de OpenAI con GPT-3.<br /><br />
000101354 521__ $$aGraduado en Ingeniería Informática
000101354 540__ $$aDerechos regulados por licencia Creative Commons
000101354 700__ $$aGracia del Río, Jorge Carlos$$edir.
000101354 700__ $$aRodríguez Fernández, Ricardo Julio$$edir.
000101354 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cLenguajes y Sistemas Informáticos
000101354 8560_ $$f698570@unizar.es
000101354 8564_ $$s921604$$uhttps://zaguan.unizar.es/record/101354/files/TAZ-TFG-2021-019.pdf$$yMemoria (spa)
000101354 909CO $$ooai:zaguan.unizar.es:101354$$pdriver$$ptrabajos-fin-grado
000101354 950__ $$a
000101354 951__ $$adeposita:2021-04-15
000101354 980__ $$aTAZ$$bTFG$$cEINA
000101354 999__ $$a20210118125940.CREATION_DATE