TAZ-TFG-2016-1828


Desarrollo y evaluación de herramientas para alineamiento automático de audio y texto con sistemas de reconocimiento automático del habla

Gimeno Jordán, Pablo
Ortega Giménez, Alfonso (dir.) ; Olcoz Martínez, Julia (dir.)

Universidad de Zaragoza, Escuela de Ingeniería y Arquitectura, 2016
Departamento de Ingeniería Electrónica y Comunicaciones, Área de Teoría de la Señal y Comunicaciones

Graduado en Ingeniería de Tecnologías y Servicios de Telecomunicación

Resumen: El objetivo del Reconocimiento Automático del Habla (RAH) es, dada una señal de voz, extraer la secuencia de palabras que han sido pronunciadas. Para poder llevar a cabo su tarea correctamente, un sistema de RAH precisa de ciertos conocimientos que obtiene a través de una fase de entrenamiento. Dicho aprendizaje se basa en dos modelos: el Modelo Acústico para caracterizar la señal de voz, y el Modelo de Lenguaje, relativo al vocabulario en ella utilizado. Este Trabajo Fin de Grado toma como punto de partida un motor de RAH para desarrollar y poner a prueba un sistema capaz de alinear el texto del guión de un programa de televisión con su correspondiente audio y obtener una localización temporal precisa de cada una de las palabras locutadas. Bajo esta premisa, se consideran diferentes estrategias de alineamiento. El principal problema que se nos plantea es la incertidumbre al localizar el texto en el audio, ya que, a priori no se tiene ninguna información. Como primera estrategia se propone, realizar un reparto uniforme del texto en el audio del programa. Así, se llevan a cabo una serie de experimentos que permiten caracterizar el sistema de alineamiento y obtener una primera referencia de sus prestaciones. Para disminuir la ambigüedad en la localización del texto en el audio se incluye un nuevo módulo en el sistema de alineamiento capaz de obtener marcas temporales parciales que sirvan de guía. Tras una nueva serie de experimentos se comprueba que esta estrategia supone una mejora relativa cercana al 12% respecto de las prestaciones ofrecidas por el sistema base. Demostrada la eficacia del uso de marcas temporales parciales, y en un intento por mejorar aun más el sistema de alineamiento, se utiliza una herramienta desarrollada para paliar las limitaciones del reconocedor en los finales de palabras, obteniendo una mejora relativa en torno al 20% respecto del sistema base, que alcanza valores próximos al 23% cuando se incluye la información de las intervenciones de cada locutor en el sistema de alineamiento. Por tanto, a la vista de las resultados obtenidos en este Trabajo Fin de Grado, se concluye que el uso de estrategias que permitan reducir la incertidumbre en la localización del texto en el audio resultan adecuadas en este contexto, quedando probada la mejora de prestaciones que suponen en el sistema de alineamiento.

Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License
Trabajo amparado bajo la licencia Creative Commons.


El registro pertenece a las siguientes colecciones:
Trabajos académicos Universidad de Zaragoza > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos Universidad de Zaragoza > Trabajos fin de grado



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)