Universidad de Zaragoza
Custodiado por la Biblioteca de la Universidad de Zaragoza
Premis-plugin for CDSInvenio, developed by Miguel Martín
Miguel Martín González
02408nmm 2200000 a 4500
spa
Olcoz Martínez, Julia
Ortega Giménez, Alfonso
Estudio de técnicas de aprendizaje no supervisado en sistemas de reconocimiento automático del habla en dominios restringidos
http://zaguan.unizar.es/record/9808
El Reconocimiento Automático del Habla (RAH) pretende, dada una señal de voz, extraer la secuencia de palabras que han sido pronunciadas. Para que la tarea de evaluación pueda llevarse a cabo, es necesario que el reconocedor adquiera previamente ciertos conocimientos a través de una fase de entrenamiento. Se trata de un aprendizaje basado en dos tipos de Modelados: Acústico, para la caracterización de la señal de voz, y del Lenguaje, relativo al vocabulario en ella utilizado. Sin embargo, la salida del sistema no suele ser limpia y contiene errores provocados por el ruido ambiente, el propio locutor, la distorsión del canal de comunciación, etc. Este Trabajo Fin de Máster tiene por objetivo estudiar distintas Medidas de Confianza (CM) que evalúen la fiabilidad de las transcripciones de salida obtenidas, de manera que el sistema por sí mismo sea capaz de seleccionar aquellos fragmentos correctamente reconocidos para utilizarlos en adaptaciones posteriores (no supervisadas), dotándolo así de mayor inteligencia. Bajo estas premisas, y en el ámbito de los Modelos Acústicos, son dos las vertientes en las que trabajamos: en la primera de ellas, consideramos un modelo genérico de partida y lo adaptamos utilizando diferentes particiones de la base de datos constituida por los partes meteorológicos de TVE (desde Enero de 2.011 hasta Enero de 2.012), aplicando las Técnicas MAP y MLLR, analizando a continuación los resultados de reconocimiento obtenidos con cada uno de los modelos adaptados. Seguidamente, nos centramos en el estudio de las CM comenzando con una medida oráculo, para determinar el grado de mejora que se alcanzaría haciendo uso de dichas herramientas; acto seguido, particularizamos para las medidas de tal índole devueltas directamente por el reconocedor Vivoreco; y finalmente abordamos las Medidas de Confianza en el contexto de la Decodificación Acústico Fonética. La realización de este trabajo nos permite constatar que hoy en día el uso de Estrategias de Adaptación No Supervisada en el ámbito del RAH sigue siendo un campo de investigación en el que profundizar. Se trata de un problema no completamente resuelto, cuyo desarrollo contribuirá a mejoras relacionadas con la usabilidad y el nivel de robustez de las aplicaciones desarrolladas con las tecnologías de reconocimiento del habla.
info:eu-repo/semantics/closedAccess
Fulltext access not authorized
info:eu-repo/semantics/bachelorThesis
info:eu-repo/semantics/publishedVersion
application/pdf 2012-11-22
02408nmm 2200000 a 4500 9808
TAZ-TFM-2012-1218
spa
Olcoz Martínez, Julia
Estudio de técnicas de aprendizaje no supervisado en sistemas de reconocimiento automático del habla en dominios restringidos
Zaragoza
Universidad de Zaragoza
2012
denied
El Reconocimiento Automático del Habla (RAH) pretende, dada una señal de voz, extraer la secuencia de palabras que han sido pronunciadas. Para que la tarea de evaluación pueda llevarse a cabo, es necesario que el reconocedor adquiera previamente ciertos conocimientos a través de una fase de entrenamiento. Se trata de un aprendizaje basado en dos tipos de Modelados: Acústico, para la caracterización de la señal de voz, y del Lenguaje, relativo al vocabulario en ella utilizado. Sin embargo, la salida del sistema no suele ser limpia y contiene errores provocados por el ruido ambiente, el propio locutor, la distorsión del canal de comunciación, etc. Este Trabajo Fin de Máster tiene por objetivo estudiar distintas Medidas de Confianza (CM) que evalúen la fiabilidad de las transcripciones de salida obtenidas, de manera que el sistema por sí mismo sea capaz de seleccionar aquellos fragmentos correctamente reconocidos para utilizarlos en adaptaciones posteriores (no supervisadas), dotándolo así de mayor inteligencia. Bajo estas premisas, y en el ámbito de los Modelos Acústicos, son dos las vertientes en las que trabajamos: en la primera de ellas, consideramos un modelo genérico de partida y lo adaptamos utilizando diferentes particiones de la base de datos constituida por los partes meteorológicos de TVE (desde Enero de 2.011 hasta Enero de 2.012), aplicando las Técnicas MAP y MLLR, analizando a continuación los resultados de reconocimiento obtenidos con cada uno de los modelos adaptados. Seguidamente, nos centramos en el estudio de las CM comenzando con una medida oráculo, para determinar el grado de mejora que se alcanzaría haciendo uso de dichas herramientas; acto seguido, particularizamos para las medidas de tal índole devueltas directamente por el reconocedor Vivoreco; y finalmente abordamos las Medidas de Confianza en el contexto de la Decodificación Acústico Fonética. La realización de este trabajo nos permite constatar que hoy en día el uso de Estrategias de Adaptación No Supervisada en el ámbito del RAH sigue siendo un campo de investigación en el que profundizar. Se trata de un problema no completamente resuelto, cuyo desarrollo contribuirá a mejoras relacionadas con la usabilidad y el nivel de robustez de las aplicaciones desarrolladas con las tecnologías de reconocimiento del habla.
Máster en Tecnología de la Información y Comunicaciones en Redes Móviles
El autor no autoriza la difusión del texto completo de su obra
reconocimiento automático del habla (rah)
medidas de confianza en rah
aprendizaje no supervisado en rah
rah en dominios restringidos
automatic speech recognition (asr)
confidence measures in asr
unsupervised learning in asr
asr in restricted domains
Ortega Giménez, Alfonso
dir.
Universidad de Zaragoza
Ingeniería Electrónica y Comunicaciones
Teoría de la Señal y Comunicaciones
537333@celes.unizar.es
1834465
http://zaguan.unizar.es/TAZ/EINA/2012/9808/TAZ-TFM-2012-1218.pdf
Memoria (spa)
TAZ
TFM
EINA
URI
http://zaguan.unizar.es/record/9808
SUPPORTED
0
MD5
http://zaguan.unizar.es/TAZ/EINA/2012/9808/TAZ-TFM-2012-1218.md5
4096
image/x.djvu
6
http://djvu.sourceforge.net/abstract.html
DJVU/6
Profile information
Lizardtech Document Express Enterprise
5.1
2011-01-19T11:29:27
URI
http://zaguan.unizar.es/TAZ/EINA/2012/9808/TAZ-TFM-2012-1218.pdf
disk
Minimum
View
Print
Visualization of DJVU requires specific software, like DjVu Browser Plugin
URI
http://creativecommons.org/licenses/by-nc/3.0
URI
http://creativecommons.org/licenses/by-nc/3.0
license
URI
http://creativecommons.org/licenses/by-nc/3.0
You are free to adapt, copy, transmite or distribute the work under the following conditions:
(1) You must attribute the work in the manner specified by the author or licensor (but not in any way that suggests that they endorse you or your use of the work).
(2) You may not use this work for commercial purposes
(3) For any reuse or distribution, you must make clear to others the license terms of this work
(4) Any of the above conditions can be waived if you get permission from the copyright holder
(5) Nothing in this license impairs or restricts the author's moral rights
This object is licensed under Creative Common Attribution-NonCommercial 3.0 (further details: http://creativecommons.org/licenses/by-nc/3.0/).
Universidad de Zaragoza
Automatizacion de Bibliotecas
Edif. Matematicas, Pedro Cerbuna 12, 50009 Zaragoza
auto.buz@unizar.es