López Ruiz

Ricardo

Bueno Sancho

Vanessa

2023

Este trabajo surge a raíz de un periodo de prácticas realizado en la empresa NTT DATA. Concre- tamente en el departamento de AI Assest Development Center en el equipo de Dolffia. Dolffia es una plataforma de procesamiento de documentos basada en IA, que extrae y clasifica información de ma- nera rápida y precisa. El objetivo del trabajo es crear una herramienta capaz de identificar las distintas entidades estructurales de un documento. Para ello tuve que aprender sobre NLP (Natural Language Processing) y descubrir los diferentes algoritmos usados en el machine learning. El propósito del trabajo es conseguir un modelo capaz de resolver la tarea mencionada de manera eficaz. Para llegar a ese modelo primero hay que entender unos fundamentos teóricos y el problema que hemos de resolver. En el primer capítulo del trabajo se hace una aproximación al mundo de la Inteligencia Artificial, más concretamente al aprendizaje automático. Diferenciando entre aprendizaje supervisado y no supervisado, se explican algoritmos como la regresión lineal, el gradiente descendiente o la detección de anomalías. A continuación se desarrolla en detalle la definición y conceptos básicos de una red neuronal. Finalmente se hace breve inciso en los modelos habitualmente usados en el NLP, es decir, en el procesamiento del lenguaje natural. En el segundo capítulo se introduce el problema de identificación de entidades en documentos. Pri- mero se explican sus bases y se comentan dificultades que nos van a surgir al resolverlo. Seguidamente se analizan métodos tradicionales para resolverlo, cómo son los métodos lingüísticos, los métodos basados en diccionarios y los métodos basados en aprendizaje automático. Por último, y de manera extendida, se explica cómo se puede resolver el problema usando redes neuronales convolucionales y la novedosa arquitectura conocida como Transformers. En el tercer capítulo comienza la parte realmente práctica del trabajo. En primer lugar se explica la forma elegida de resolver el problema: vamos a hacer un fine-tuning de un modelo de la biblioteca Transformers 1 de Hugging Face 2. El modelo elegido es LayoutLMv2. En la primera sección se explica en detalle y se compara con su predecesor. En la siguiente sección se hace una explicación exhaustiva de DocLayNet, el conjunto de datos elegido para hacer el fine-tuning, y cómo lo hemos preprocesado. Finalmente, en el cuarto y último capítulo se explica cómo se ha realizado el entrenamiento del modelo LayoutLMv2 con el dataset DocLayNet, a continuación se analizan los resultados obtenidos. Para acabar se comentan brevemente posibles mejoras a realizar sobre nuestro modelo en un futuro.

TAZ