000101354 001__ 101354 000101354 005__ 20210415110713.0 000101354 037__ $$aTAZ-TFG-2021-019 000101354 041__ $$aspa 000101354 1001_ $$aEscribano Pérez, Miguel 000101354 24200 $$aSystem for text classification of niche topic with low amount of tagged data 000101354 24500 $$aSistema para categorización de textos en un ámbito nicho con pocos datos etiquetados 000101354 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2021 000101354 500__ $$aResumen disponible también en inglés. 000101354 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/ 000101354 520__ $$aEl incremento exponencial de la generación de contenido en Internet ha obligado a automatizar tareas<br />de gestión que antes eran realizadas por humanos, lo cual ha impulsado un gran desarrollo de las<br />técnicas de Inteligencia Artificial. Estas nuevas herramientas pueden ser de ayuda a la hora de moderar<br />contenidos peligrosos difundidos en redes sociales, como la apología de los trastornos alimenticios.<br />En este trabajo se colabora con la Fundación APE para implementar un clasificador de texto que<br />detecte la promoción de la anorexia y la bulimia en mensajes de Twitter. Dicho clasificador será<br />integrado en un software de seguimiento de interacciones en redes sociales para monitorizar en tiempo<br />real la difusión de estos contenidos. El objetivo principal de este trabajo es estudiar las herramientas de<br />código abierto disponibles más relevantes para dicha tarea de clasificación de textos y compararlas en<br />el contexto concreto que nos ocupa (detección de mensajes promotores de trastornos alimenticios).<br />Adicionalmente, se ha generado un corpus de textos etiquetados como promotores o no promotores<br />de trastornos alimenticios expandiendo un corpus preexistente con mensajes recolectados de Internet.<br />Con él se han entrenado clasificadores de texto basados en cinco herramientas de procesamiento del<br />lenguaje natural distintas, FastText, SpaCy, Transformers, Custom_BoW y Custom_TF-IDF. Estas<br />dos últimas han sido implementadas manualmente como baseline de la comparativa. Además, se han<br />aplicado distintas formas de preprocesado de texto, incluido un corrector ortográfico propio, para<br />reducir el ruido en las muestras.<br />Los resultados obtenidos muestran una clara superioridad de las herramientas Transformers y FastText,<br />que han superado el 0.95 de F1-score, siendo mejores que los logrados por los otros clasificadores<br />estudiados. En concreto, FastText se considera el modelo más adecuado en este caso de estudio por<br />su excelente equilibrio entre rápido tiempo de respuesta y calidad del clasificado. Los resultados más<br />consistentes se han logrado con técnicas de preprocesado de textos poco intrusivas y se desaconseja el<br />uso de correctores ortográficos por su impacto en el tiempo de respuesta, que no resulta en mejoras<br />notables en la calidad de los resultados.<br />Como conclusión de este trabajo, se ha comprobado que es viable categorizar texto en lenguaje natural<br />con un corpus reducido de ejemplos, sin hardware dedicado ni conocimiento extenso de Inteligencia<br />Artificial. Trabajos futuros deben abordar cómo mejorar la calidad de etiquetado de los corpus de<br />datos generados, investigar si los resultados obtenidos son similares en otros casos de clasificación de<br />texto, y estudiar el uso de Machine Learning as a Service, como en el caso de OpenAI con GPT-3.<br /><br /> 000101354 521__ $$aGraduado en Ingeniería Informática 000101354 540__ $$aDerechos regulados por licencia Creative Commons 000101354 700__ $$aGracia del Río, Jorge Carlos$$edir. 000101354 700__ $$aRodríguez Fernández, Ricardo Julio$$edir. 000101354 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cLenguajes y Sistemas Informáticos 000101354 8560_ $$f698570@unizar.es 000101354 8564_ $$s921604$$uhttps://zaguan.unizar.es/record/101354/files/TAZ-TFG-2021-019.pdf$$yMemoria (spa) 000101354 909CO $$ooai:zaguan.unizar.es:101354$$pdriver$$ptrabajos-fin-grado 000101354 950__ $$a 000101354 951__ $$adeposita:2021-04-15 000101354 980__ $$aTAZ$$bTFG$$cEINA 000101354 999__ $$a20210118125940.CREATION_DATE