000125550 001__ 125550
000125550 005__ 20230420124049.0
000125550 037__ $$aTAZ-TFG-2022-2448
000125550 041__ $$aspa
000125550 1001_ $$aBuey Utrilla, Santiago
000125550 24200 $$aCreation of a Natural Language Processing module over an indexing engine from unstructured data from INAEM.
000125550 24500 $$aCreación de un módulo de Procesamiento de Lenguaje Natural sobre un indexador a partir de información no estructurada proveniente del INAEM.
000125550 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2022
000125550 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000125550 520__ $$aEste TFG se ha realizado dentro de la empresa Hiberus Tecnología, en el área de Data & Analytics. Allí existe un proyecto con el Instituto Aragonés de Empleo (INAEM) en el que se implementó una plataforma Big Data para la clasificación de ofertas de empleo. Este trabajo se sitúa dentro del marco de dicho proyecto, en el que se van a evaluar posibilidades que tengan viabilidad técnica garantizada y por tanto puedan ser llevadas a producción en un futuro. En este contexto, se ha puesto el foco en la mejora de la información obtenida como problema a abordar. Para este trabajo se ha planteado aplicar técnicas de Machine Learning (ML) sobre los datos, es decir, ofertas de empleo. Dado que son datos de carácter textual, se ha concretado en utilizar Procesamiento del Lenguaje Natural sobre ellas para extraer la información, en particular aplicando una de dos técnicas propuestas: Named Entity Recognition (NER) o Topic Modeling. En el proyecto de Hiberus, las ofertas de empleo se encuentran cargadas en índices de Elastic, tecnología que se utiliza como indexador. Tras un periodo de familiarización y estudio de la herramienta, se ha abordado la problemática de que no cuenta con funcionalidades de ML de forma gratuita, y tampoco ofrece técnicas de NLP. Para ello, se ha hecho un estudio del estado de la práctica en busca de alternativas, hasta dar con una que aportase capacidades NLP sin necesidad de pagar. Fruto del estudio del estado de la práctica se ha encontrado la librería gratuita OpenNLP, que ofrece herramientas para entrenar y evaluar modelos NER, y el plugin Elasticsearch OpenNLP Ingest Processor, el cual permite incorporar dichos modelos en Elastic para poderlos aplicar en la fase de la ingesta de datos. Por tanto, se ha encontrado una solución que permite aplicar NER sobre las ofertas de empleo del proyecto con INAEM dentro de Elastic. Esta solución ha sido evaluada en base a distintas métricas y comparada con otras alternativas que no aplican ML, y se han planteado sus posibles futuras líneas de desarrollo y puntos de mejora por sí en un futuro se quisiera llevar a producción.<br />
000125550 521__ $$aGraduado en Ingeniería Informática
000125550 540__ $$aDerechos regulados por licencia Creative Commons
000125550 700__ $$aGalbán Garzón, Sebastián Federico$$edir.
000125550 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cLenguajes y Sistemas Informáticos
000125550 7202_ $$aZarazaga Soria, Francisco Javier$$eponente
000125550 8560_ $$f747827@unizar.es
000125550 8564_ $$s1384694$$uhttps://zaguan.unizar.es/record/125550/files/TAZ-TFG-2022-2448.pdf$$yMemoria (spa)
000125550 909CO $$ooai:zaguan.unizar.es:125550$$pdriver$$ptrabajos-fin-grado
000125550 950__ $$a
000125550 951__ $$adeposita:2023-04-20
000125550 980__ $$aTAZ$$bTFG$$cEINA
000125550 999__ $$a20220622235901.CREATION_DATE
Repositorio Institucional de Documentos