000133823 001__ 133823
000133823 005__ 20240424142041.0
000133823 037__ $$aTAZ-TFM-2023-995
000133823 041__ $$aspa
000133823 1001_ $$aLópez Rodríguez, Aurea
000133823 24200 $$aConstruction of an intelligence system for the transcription of audio to text for incident management.
000133823 24500 $$aConstrucción de un sistema de Inteligencia Artificial para la transcripción de audio a texto para la gestión de incidencias.
000133823 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2023
000133823 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000133823 520__ $$aEn los últimos años, el campo de la inteligencia artificial ha experimentado un crecimiento significativo, impulsado por los avances en el campo del deep learning. Esta evolución ha permitido una ampliación significativa de las técnicas y algoritmos empleados en el ámbito del reconocimiento automático del habla (ASR).<br />Este trabajo se centra en la creación de un sistema de inteligencia artificial para lograr una transcripción precisa de audio a texto, con la finalidad de aplicarlo en la gestión de incidencias. En particular, se analizan modelos que utilizan redes neuronales bidireccionales convolucionales recurrentes (BCRNN).<br />La investigación comienza con un análisis exhaustivo de los métodos para extraer características de las señales de audio, incluyendo los coeficientes cepstrales de Mel (MFCC) y los espectrogramas. Estas características, junto con las transcripciones textuales de los audios, servirán como datos de entrada para nuestra red.<br />A continuación, se examinan en detalle las componentes fundamentales de una BCRNN, desglosando los elementos que conforman las capas convolucionales y las capas recurrentes bidireccionales de la red, explicando su funcionamiento en el procesamiento de secuencias de datos.<br />Una vez establecidos los elementos que componen estos modelos, se explora el proceso de aprendizaje mediante la optimización de una función de pérdida que permitirá ajustar los parámetros de la red para minimizar el error. En nuestro caso, esta función de pérdida es la clasificación temporal de conexiones (CTC), que se combina con el algoritmo de retropropagación a través del tiempo (BPTT) y el algoritmo de optimización de descenso del gradiente estocástico (SGD).<br />En la culminación de esta sección teórica, se definen las dos métricas más utilizadas para la validación de modelos ASR: el Word Error Rate (WER) y el Character Error Rate (CER).<br />La última parte de este trabajo aplica las herramientas teóricas previamente descritas al estudio de la viabilidad de un proyecto enfocado en la detección del tipo de incidencia. El proyecto se ha desarrollado utilizando Jupyter Notebook y se presenta detallando cada uno de los pasos realizados durante su ejecución. Se inicia con la descripción del proceso de construcción del conjunto de datos. Luego, se presentan los diversos modelos que se han ajustado para este proyecto, describiendo en profundidad la arquitectura y los resultados obtenidos en cada caso.<br />Dentro de esta sección, se brindará particular atención al modelo final, que se adapta específicamente a este proyecto y se basa en una red BCRNN. La compilación del modelo incorpora la función de pérdida CTC y el optimizador SGD. Los resultados alcanzados con este modelo han sido bastante buenos,<br />obteniendo una precisión del 97,48% en términos de caracteres.<br />Finalmente, se proporciona una sección de conclusiones, junto con posibles líneas de trabajo futuro para continuar mejorando el modelo desarrollado.<br /><br />
000133823 521__ $$aMáster Universitario en Modelización e Investigación Matemática, Estadística y Computación
000133823 540__ $$aDerechos regulados por licencia Creative Commons
000133823 700__ $$aCasaucau Lacruz, María Beatriz $$edir.
000133823 700__ $$aCorral Díez, Javier$$edir.
000133823 7102_ $$aUniversidad de Zaragoza$$bMétodos Estadísticos$$cEstadística e Investigación Operativa
000133823 8560_ $$f783073@unizar.es
000133823 8564_ $$s2859900$$uhttps://zaguan.unizar.es/record/133823/files/TAZ-TFM-2023-995.pdf$$yMemoria (spa)
000133823 909CO $$ooai:zaguan.unizar.es:133823$$pdriver$$ptrabajos-fin-master
000133823 950__ $$a
000133823 951__ $$adeposita:2024-04-24
000133823 980__ $$aTAZ$$bTFM$$cCIEN
000133823 999__ $$a20230901105859.CREATION_DATE