TAZ-TFG-2022-2448


Creación de un módulo de Procesamiento de Lenguaje Natural sobre un indexador a partir de información no estructurada proveniente del INAEM.

Buey Utrilla, Santiago
Galbán Garzón, Sebastián Federico (dir.)

Zarazaga Soria, Francisco Javier (ponente)

Universidad de Zaragoza, EINA, 2022
Informática e Ingeniería de Sistemas department, Lenguajes y Sistemas Informáticos area

Graduado en Ingeniería Informática

Abstract: Este TFG se ha realizado dentro de la empresa Hiberus Tecnología, en el área de Data & Analytics. Allí existe un proyecto con el Instituto Aragonés de Empleo (INAEM) en el que se implementó una plataforma Big Data para la clasificación de ofertas de empleo. Este trabajo se sitúa dentro del marco de dicho proyecto, en el que se van a evaluar posibilidades que tengan viabilidad técnica garantizada y por tanto puedan ser llevadas a producción en un futuro. En este contexto, se ha puesto el foco en la mejora de la información obtenida como problema a abordar. Para este trabajo se ha planteado aplicar técnicas de Machine Learning (ML) sobre los datos, es decir, ofertas de empleo. Dado que son datos de carácter textual, se ha concretado en utilizar Procesamiento del Lenguaje Natural sobre ellas para extraer la información, en particular aplicando una de dos técnicas propuestas: Named Entity Recognition (NER) o Topic Modeling. En el proyecto de Hiberus, las ofertas de empleo se encuentran cargadas en índices de Elastic, tecnología que se utiliza como indexador. Tras un periodo de familiarización y estudio de la herramienta, se ha abordado la problemática de que no cuenta con funcionalidades de ML de forma gratuita, y tampoco ofrece técnicas de NLP. Para ello, se ha hecho un estudio del estado de la práctica en busca de alternativas, hasta dar con una que aportase capacidades NLP sin necesidad de pagar. Fruto del estudio del estado de la práctica se ha encontrado la librería gratuita OpenNLP, que ofrece herramientas para entrenar y evaluar modelos NER, y el plugin Elasticsearch OpenNLP Ingest Processor, el cual permite incorporar dichos modelos en Elastic para poderlos aplicar en la fase de la ingesta de datos. Por tanto, se ha encontrado una solución que permite aplicar NER sobre las ofertas de empleo del proyecto con INAEM dentro de Elastic. Esta solución ha sido evaluada en base a distintas métricas y comparada con otras alternativas que no aplican ML, y se han planteado sus posibles futuras líneas de desarrollo y puntos de mejora por sí en un futuro se quisiera llevar a producción.

Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License



El registro pertenece a las siguientes colecciones:
Academic Works > Trabajos Académicos por Centro > escuela-de-ingeniería-y-arquitectura
Academic Works > End-of-grade works



Back to search

Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)