000006869 001__ 6869
000006869 005__ 20150325135923.0
000006869 037__ $$aTAZ-PFC-2012-035
000006869 041__ $$aspa
000006869 1001_ $$aMolina Miravalles, Diego
000006869 24500 $$aSimulación de voces a través de un conversor texto-voz basado en modelos ocultos de Markov
000006869 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2012
000006869 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000006869 500__ $$aResumen disponible también en inglés
000006869 520__ $$aUna parte importante de los sistemas de inteligencia ambiental la constituye el interfaz hombre-máquina, y dentro de este la síntesis de voz. La síntesis de voz consiste en la producción artificial de voz humana. Los principales retos de los conversores texto-voz son la producción de una voz artificial inteligible y natural, la completa automatización del proceso y que el texto necesario para la síntesis no provenga de una modificación del lenguaje original. A lo largo de este proyecto se ha puesto en marcha un sistema completo de conversión texto-voz de última generación basado en la síntesis de voz por modelos ocultos de Markov. Para llevarlo a cabo se han empleado algoritmos de adaptación de modelos acústicos, concretamente Maximum A Posteriori y Maximum Likelihood Linear Regression. Estos algoritmos permiten obtener una voz sintetizada a partir de pocas muestras de voz y no fonéticamente balanceadas del locutor deseado, pues utilizan como base otros registros que sí están fonéticamente balanceados entrenados previamente para la síntesis. Para realizar este proceso de conversión texto-voz se ha elaborado una base de datos, tanto de un locutor genérico como del locutor a adaptar, y su representación escrita. Se ha realizado un proceso de entrenamiento, consistente en la elaboración de los modelos acústicos empleados en la síntesis, aplicando distintos algoritmos para el cálculo de los modelos. Finalmente se han aplicado los algoritmos adaptativos descritos anteriormente. Una vez obtenidos los modelos acústicos se ha procedido a generar voz artificial siguiendo el modelo digital de producción del habla, excitación más filtro. El resultado del proceso es una voz artificial que busca asemejarse a la voz original, semejanza que se ha evaluado mediante programación dinámica. Por último, se ha elaborado una aplicación web que, sirviéndose del sistema de síntesis elaborado, servirá para crear un banco de voces de los usuarios que la empleen. Human-Machine Interface is an important part of the Ambient Intelligence Systems, and in particular the Text-to-Speech (TTS) systems. TTS consists of an artificial human voice production. The aims of TTS systems are: the production of a synthesized intelligible and natural voice, and the complete automation of the process. Moreover the text to synthesize doesn’t come from a change of the original language. During this project, a last generation complete TTS system based on Hidden Markov Models has been developed. In order to perform it, adaptation algorithms of acoustic models have been used, specifically Maximum A Posteriori and Maximum Likelihood Linear Regression. These algorithms allow us to obtain an artificial voice from a few not phonetically balanced voice samples of the desired speaker, because phonetically balanced base voice is used. For this TTS conversion process, a database from a generic speaker and the desired speaker has been produced. A training process, which consists of developing acoustic models, by applying different algorithms, has been performed. Finally, the adaptive algorithms described before have been applied. Once the acoustic models have been obtained, an artificial voice has been generated using the digital model of voice production. The result of this process is an artificial voice, which tries to be as similar as possible to the original voice. This similarity has been evaluated by a dynamic programming algorithm. Finally, a web application has been developed to create a voice bank.
000006869 521__ $$aIngeniero de Telecomunicación
000006869 540__ $$aDerechos regulados por licencia Creative Commons
000006869 6531_ $$asíntesis de voz
000006869 6531_ $$atts
000006869 6531_ $$amllr
000006869 6531_ $$amap
000006869 700__ $$aLleida Solano, Eduardo$$edir.
000006869 7102_ $$aUniversidad de Zaragoza$$bIngeniería Electrónica y Comunicaciones$$cTeoría de la Señal y Comunicaciones
000006869 8560_ $$f551671@celes.unizar.es
000006869 8564_ $$s1444717$$uhttps://zaguan.unizar.es/record/6869/files/TAZ-PFC-2012-035.pdf$$yMemoria (spa)
000006869 909CO $$ooai:zaguan.unizar.es:6869$$pdriver$$pproyectos-fin-carrera
000006869 950__ $$a
000006869 980__ $$aTAZ$$bPFC$$cEINA