TAZ-TFM-2023-995


Construcción de un sistema de Inteligencia Artificial para la transcripción de audio a texto para la gestión de incidencias.

López Rodríguez, Aurea
Casaucau Lacruz, María Beatriz (dir.) ; Corral Díez, Javier (dir.)

Universidad de Zaragoza, CIEN, 2023
Departamento de Métodos Estadísticos, Área de Estadística e Investigación Operativa

Máster Universitario en Modelización e Investigación Matemática, Estadística y Computación

Resumen: En los últimos años, el campo de la inteligencia artificial ha experimentado un crecimiento significativo, impulsado por los avances en el campo del deep learning. Esta evolución ha permitido una ampliación significativa de las técnicas y algoritmos empleados en el ámbito del reconocimiento automático del habla (ASR).
Este trabajo se centra en la creación de un sistema de inteligencia artificial para lograr una transcripción precisa de audio a texto, con la finalidad de aplicarlo en la gestión de incidencias. En particular, se analizan modelos que utilizan redes neuronales bidireccionales convolucionales recurrentes (BCRNN).
La investigación comienza con un análisis exhaustivo de los métodos para extraer características de las señales de audio, incluyendo los coeficientes cepstrales de Mel (MFCC) y los espectrogramas. Estas características, junto con las transcripciones textuales de los audios, servirán como datos de entrada para nuestra red.
A continuación, se examinan en detalle las componentes fundamentales de una BCRNN, desglosando los elementos que conforman las capas convolucionales y las capas recurrentes bidireccionales de la red, explicando su funcionamiento en el procesamiento de secuencias de datos.
Una vez establecidos los elementos que componen estos modelos, se explora el proceso de aprendizaje mediante la optimización de una función de pérdida que permitirá ajustar los parámetros de la red para minimizar el error. En nuestro caso, esta función de pérdida es la clasificación temporal de conexiones (CTC), que se combina con el algoritmo de retropropagación a través del tiempo (BPTT) y el algoritmo de optimización de descenso del gradiente estocástico (SGD).
En la culminación de esta sección teórica, se definen las dos métricas más utilizadas para la validación de modelos ASR: el Word Error Rate (WER) y el Character Error Rate (CER).
La última parte de este trabajo aplica las herramientas teóricas previamente descritas al estudio de la viabilidad de un proyecto enfocado en la detección del tipo de incidencia. El proyecto se ha desarrollado utilizando Jupyter Notebook y se presenta detallando cada uno de los pasos realizados durante su ejecución. Se inicia con la descripción del proceso de construcción del conjunto de datos. Luego, se presentan los diversos modelos que se han ajustado para este proyecto, describiendo en profundidad la arquitectura y los resultados obtenidos en cada caso.
Dentro de esta sección, se brindará particular atención al modelo final, que se adapta específicamente a este proyecto y se basa en una red BCRNN. La compilación del modelo incorpora la función de pérdida CTC y el optimizador SGD. Los resultados alcanzados con este modelo han sido bastante buenos,
obteniendo una precisión del 97,48% en términos de caracteres.
Finalmente, se proporciona una sección de conclusiones, junto con posibles líneas de trabajo futuro para continuar mejorando el modelo desarrollado.


Tipo de Trabajo Académico: Trabajo Fin de Master

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Facultad de Ciencias
Trabajos académicos > Trabajos fin de máster



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)