000134420 001__ 134420 000134420 005__ 20240424142047.0 000134420 037__ $$aTAZ-TFG-2023-3765 000134420 041__ $$aspa 000134420 1001_ $$aRedondo Laencina, David 000134420 24200 $$aNeural network models for identifying entities in documents. 000134420 24500 $$aModelos de redes neuronales para identificar entidades en documentos. 000134420 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2023 000134420 500__ $$aCon la colaboración de la empresa NTT DATA 000134420 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/ 000134420 520__ $$aEste trabajo surge a raíz de un periodo de prácticas realizado en la empresa NTT DATA. Concre- <br />tamente en el departamento de AI Assest Development Center en el equipo de Dolffia. Dolffia es una <br />plataforma de procesamiento de documentos basada en IA, que extrae y clasifica información de ma- <br />nera rápida y precisa. El objetivo del trabajo es crear una herramienta capaz de identificar las distintas <br />entidades estructurales de un documento. Para ello tuve que aprender sobre NLP (Natural Language <br />Processing) y descubrir los diferentes algoritmos usados en el machine learning.<br />El propósito del trabajo es conseguir un modelo capaz de resolver la tarea mencionada de manera <br />eficaz. Para llegar a ese modelo primero hay que entender unos fundamentos teóricos y el problema que <br />hemos de resolver.<br />En el primer capítulo del trabajo se hace una aproximación al mundo de la Inteligencia Artificial, más <br />concretamente al aprendizaje automático. Diferenciando entre aprendizaje supervisado y no supervisado, <br />se explican algoritmos como la regresión lineal, el gradiente descendiente o la detección de anomalías. A <br />continuación se desarrolla en detalle la definición y conceptos básicos de una red neuronal. Finalmente <br />se hace breve inciso en los modelos habitualmente usados en el NLP, es decir, en el procesamiento del <br />lenguaje natural.<br />En el segundo capítulo se introduce el problema de identificación de entidades en documentos. Pri- <br />mero se explican sus bases y se comentan dificultades que nos van a surgir al resolverlo. Seguidamente se <br />analizan métodos tradicionales para resolverlo, cómo son los métodos lingüísticos, los métodos basados <br />en diccionarios y los métodos basados en aprendizaje automático. Por último, y de manera extendida, <br />se explica cómo se puede resolver el problema usando redes neuronales convolucionales y la novedosa <br />arquitectura conocida como Transformers.<br />En el tercer capítulo comienza la parte realmente práctica del trabajo. En primer lugar se explica <br />la forma elegida de resolver el problema: vamos a hacer un fine-tuning de un modelo de la biblioteca <br />Transformers 1 de Hugging Face 2. El modelo elegido es LayoutLMv2. En la primera sección se explica <br />en detalle y se compara con su predecesor. En la siguiente sección se hace una explicación exhaustiva de <br />DocLayNet, el conjunto de datos elegido para hacer el fine-tuning, y cómo lo hemos preprocesado.<br />Finalmente, en el cuarto y último capítulo se explica cómo se ha realizado el entrenamiento del <br />modelo LayoutLMv2 con el dataset DocLayNet, a continuación se analizan los resultados obtenidos. <br />Para acabar se comentan brevemente posibles mejoras a realizar sobre nuestro modelo en un futuro.<br /><br /> 000134420 521__ $$aGraduado en Matemáticas 000134420 540__ $$aDerechos regulados por licencia Creative Commons 000134420 700__ $$aLópez Ruiz, Ricardo$$edir. 000134420 700__ $$aBueno Sancho, Vanessa$$edir. 000134420 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cCC. de la Computación e Inteligencia Artificial 000134420 8560_ $$f796429@unizar.es 000134420 8564_ $$s2250510$$uhttps://zaguan.unizar.es/record/134420/files/TAZ-TFG-2023-3765.pdf$$yMemoria (spa) 000134420 909CO $$ooai:zaguan.unizar.es:134420$$pdriver$$ptrabajos-fin-grado 000134420 950__ $$a 000134420 951__ $$adeposita:2024-04-24 000134420 980__ $$aTAZ$$bTFG$$cCIEN 000134420 999__ $$a20230904221609.CREATION_DATE