000060824 001__ 60824
000060824 005__ 20170323124744.0
000060824 037__ $$aTAZ-TFG-2016-1828
000060824 041__ $$aspa
000060824 1001_ $$aGimeno Jordán, Pablo
000060824 24200 $$aDevelopment & evaluation of speech to text alignment tools using automatic speech recognition techniques
000060824 24500 $$aDesarrollo y evaluación de herramientas para alineamiento automático de audio y texto con sistemas de reconocimiento automático del habla
000060824 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2016
000060824 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000060824 520__ $$aEl objetivo del Reconocimiento Automático del Habla (RAH) es, dada una señal de voz, extraer la secuencia de palabras que han sido pronunciadas. Para poder llevar a cabo su tarea correctamente, un sistema de RAH precisa de ciertos conocimientos que obtiene a través de una fase de entrenamiento. Dicho aprendizaje se basa en dos modelos: el Modelo Acústico para caracterizar la señal de voz, y el Modelo de Lenguaje, relativo al vocabulario en ella utilizado. Este Trabajo Fin de Grado toma como punto de partida un motor de RAH para desarrollar y poner a prueba un sistema capaz de alinear el texto del guión de un programa de televisión con su correspondiente audio y obtener una localización temporal precisa de cada una de las palabras locutadas. Bajo esta premisa, se consideran diferentes estrategias de alineamiento. El principal problema que se nos plantea es la incertidumbre al localizar el texto en el audio, ya que, a priori no se tiene ninguna información. Como primera estrategia se propone, realizar un reparto uniforme del texto en el audio del programa. Así, se llevan a cabo una serie de experimentos que permiten caracterizar el sistema de alineamiento y obtener una primera referencia de sus prestaciones. Para disminuir la ambigüedad en la localización del texto en el audio se incluye un nuevo módulo en el sistema de alineamiento capaz de obtener marcas temporales parciales que sirvan de guía. Tras una nueva serie de experimentos se comprueba que esta estrategia supone una mejora relativa cercana al 12% respecto de las prestaciones ofrecidas por el sistema base. Demostrada la eficacia del uso de marcas temporales parciales, y en un intento por mejorar aun más el sistema de alineamiento, se utiliza una herramienta desarrollada para paliar las limitaciones del reconocedor en los finales de palabras, obteniendo una mejora relativa en torno al 20% respecto del sistema base, que alcanza valores próximos al 23% cuando se incluye la información de las intervenciones de cada locutor en el sistema de alineamiento. Por tanto, a la vista de las resultados obtenidos en este Trabajo Fin de Grado, se concluye que el uso de estrategias que permitan reducir la incertidumbre en la localización del texto en el audio resultan adecuadas en este contexto, quedando probada la mejora de prestaciones que suponen en el sistema de alineamiento.
000060824 521__ $$aGraduado en Ingeniería de Tecnologías y Servicios de Telecomunicación
000060824 540__ $$aDerechos regulados por licencia Creative Commons
000060824 700__ $$aOrtega Giménez, Alfonso$$edir.
000060824 700__ $$aOlcoz Martínez, Julia$$edir.
000060824 7102_ $$aUniversidad de Zaragoza$$bIngeniería Electrónica y Comunicaciones$$cTeoría de la Señal y Comunicaciones
000060824 8560_ $$f532773@celes.unizar.es
000060824 8564_ $$s3268803$$uhttps://zaguan.unizar.es/record/60824/files/TAZ-TFG-2016-1828.pdf$$yMemoria (spa)
000060824 909CO $$ooai:zaguan.unizar.es:60824$$pdriver$$ptrabajos-fin-grado
000060824 950__ $$a
000060824 951__ $$adeposita:2017-03-23
000060824 980__ $$aTAZ$$bTFG$$cEINA