Universidad de Zaragoza Custodiado por la Biblioteca de la Universidad de Zaragoza Premis-plugin for CDSInvenio, developed by Miguel Martín Miguel Martín González 02408nmm 2200000 a 4500
2013-02-14
spa Olcoz Martínez, Julia Ortega Giménez, Alfonso Estudio de técnicas de aprendizaje no supervisado en sistemas de reconocimiento automático del habla en dominios restringidos http://zaguan.unizar.es/record/9808 El Reconocimiento Automático del Habla (RAH) pretende, dada una señal de voz, extraer la secuencia de palabras que han sido pronunciadas. Para que la tarea de evaluación pueda llevarse a cabo, es necesario que el reconocedor adquiera previamente ciertos conocimientos a través de una fase de entrenamiento. Se trata de un aprendizaje basado en dos tipos de Modelados: Acústico, para la caracterización de la señal de voz, y del Lenguaje, relativo al vocabulario en ella utilizado. Sin embargo, la salida del sistema no suele ser limpia y contiene errores provocados por el ruido ambiente, el propio locutor, la distorsión del canal de comunciación, etc. Este Trabajo Fin de Máster tiene por objetivo estudiar distintas Medidas de Confianza (CM) que evalúen la fiabilidad de las transcripciones de salida obtenidas, de manera que el sistema por sí mismo sea capaz de seleccionar aquellos fragmentos correctamente reconocidos para utilizarlos en adaptaciones posteriores (no supervisadas), dotándolo así de mayor inteligencia. Bajo estas premisas, y en el ámbito de los Modelos Acústicos, son dos las vertientes en las que trabajamos: en la primera de ellas, consideramos un modelo genérico de partida y lo adaptamos utilizando diferentes particiones de la base de datos constituida por los partes meteorológicos de TVE (desde Enero de 2.011 hasta Enero de 2.012), aplicando las Técnicas MAP y MLLR, analizando a continuación los resultados de reconocimiento obtenidos con cada uno de los modelos adaptados. Seguidamente, nos centramos en el estudio de las CM comenzando con una medida oráculo, para determinar el grado de mejora que se alcanzaría haciendo uso de dichas herramientas; acto seguido, particularizamos para las medidas de tal índole devueltas directamente por el reconocedor Vivoreco; y finalmente abordamos las Medidas de Confianza en el contexto de la Decodificación Acústico Fonética. La realización de este trabajo nos permite constatar que hoy en día el uso de Estrategias de Adaptación No Supervisada en el ámbito del RAH sigue siendo un campo de investigación en el que profundizar. Se trata de un problema no completamente resuelto, cuyo desarrollo contribuirá a mejoras relacionadas con la usabilidad y el nivel de robustez de las aplicaciones desarrolladas con las tecnologías de reconocimiento del habla. info:eu-repo/semantics/closedAccess Fulltext access not authorized info:eu-repo/semantics/bachelorThesis info:eu-repo/semantics/publishedVersion application/pdf 2012-11-22
02408nmm 2200000 a 4500 9808 TAZ-TFM-2012-1218 spa Olcoz Martínez, Julia Estudio de técnicas de aprendizaje no supervisado en sistemas de reconocimiento automático del habla en dominios restringidos Zaragoza Universidad de Zaragoza 2012 denied El Reconocimiento Automático del Habla (RAH) pretende, dada una señal de voz, extraer la secuencia de palabras que han sido pronunciadas. Para que la tarea de evaluación pueda llevarse a cabo, es necesario que el reconocedor adquiera previamente ciertos conocimientos a través de una fase de entrenamiento. Se trata de un aprendizaje basado en dos tipos de Modelados: Acústico, para la caracterización de la señal de voz, y del Lenguaje, relativo al vocabulario en ella utilizado. Sin embargo, la salida del sistema no suele ser limpia y contiene errores provocados por el ruido ambiente, el propio locutor, la distorsión del canal de comunciación, etc. Este Trabajo Fin de Máster tiene por objetivo estudiar distintas Medidas de Confianza (CM) que evalúen la fiabilidad de las transcripciones de salida obtenidas, de manera que el sistema por sí mismo sea capaz de seleccionar aquellos fragmentos correctamente reconocidos para utilizarlos en adaptaciones posteriores (no supervisadas), dotándolo así de mayor inteligencia. Bajo estas premisas, y en el ámbito de los Modelos Acústicos, son dos las vertientes en las que trabajamos: en la primera de ellas, consideramos un modelo genérico de partida y lo adaptamos utilizando diferentes particiones de la base de datos constituida por los partes meteorológicos de TVE (desde Enero de 2.011 hasta Enero de 2.012), aplicando las Técnicas MAP y MLLR, analizando a continuación los resultados de reconocimiento obtenidos con cada uno de los modelos adaptados. Seguidamente, nos centramos en el estudio de las CM comenzando con una medida oráculo, para determinar el grado de mejora que se alcanzaría haciendo uso de dichas herramientas; acto seguido, particularizamos para las medidas de tal índole devueltas directamente por el reconocedor Vivoreco; y finalmente abordamos las Medidas de Confianza en el contexto de la Decodificación Acústico Fonética. La realización de este trabajo nos permite constatar que hoy en día el uso de Estrategias de Adaptación No Supervisada en el ámbito del RAH sigue siendo un campo de investigación en el que profundizar. Se trata de un problema no completamente resuelto, cuyo desarrollo contribuirá a mejoras relacionadas con la usabilidad y el nivel de robustez de las aplicaciones desarrolladas con las tecnologías de reconocimiento del habla. Máster en Tecnología de la Información y Comunicaciones en Redes Móviles El autor no autoriza la difusión del texto completo de su obra reconocimiento automático del habla (rah) medidas de confianza en rah aprendizaje no supervisado en rah rah en dominios restringidos automatic speech recognition (asr) confidence measures in asr unsupervised learning in asr asr in restricted domains Ortega Giménez, Alfonso dir. Universidad de Zaragoza Ingeniería Electrónica y Comunicaciones Teoría de la Señal y Comunicaciones 537333@celes.unizar.es 1834465 http://zaguan.unizar.es/TAZ/EINA/2012/9808/TAZ-TFM-2012-1218.pdf Memoria (spa) TAZ TFM EINA URI http://zaguan.unizar.es/record/9808 SUPPORTED 0 MD5 http://zaguan.unizar.es/TAZ/EINA/2012/9808/TAZ-TFM-2012-1218.md5 4096 image/x.djvu 6 http://djvu.sourceforge.net/abstract.html DJVU/6 Profile information Lizardtech Document Express Enterprise 5.1 2011-01-19T11:29:27 URI http://zaguan.unizar.es/TAZ/EINA/2012/9808/TAZ-TFM-2012-1218.pdf disk Minimum View Print Visualization of DJVU requires specific software, like DjVu Browser Plugin URI http://creativecommons.org/licenses/by-nc/3.0 URI http://creativecommons.org/licenses/by-nc/3.0 license URI http://creativecommons.org/licenses/by-nc/3.0 You are free to adapt, copy, transmite or distribute the work under the following conditions: (1) You must attribute the work in the manner specified by the author or licensor (but not in any way that suggests that they endorse you or your use of the work). (2) You may not use this work for commercial purposes (3) For any reuse or distribution, you must make clear to others the license terms of this work (4) Any of the above conditions can be waived if you get permission from the copyright holder (5) Nothing in this license impairs or restricts the author's moral rights This object is licensed under Creative Common Attribution-NonCommercial 3.0 (further details: http://creativecommons.org/licenses/by-nc/3.0/). Universidad de Zaragoza Automatizacion de Bibliotecas Edif. Matematicas, Pedro Cerbuna 12, 50009 Zaragoza auto.buz@unizar.es