<?xml version="1.0" encoding="UTF-8"?>
<collection xmlns="http://www.loc.gov/MARC21/slim">
    <record>
        <controlfield tag="001">6119</controlfield>
        <controlfield tag="005">20150325135839.0</controlfield>
        <datafield tag="037" ind1=" " ind2=" ">
            <subfield code="a">TAZ-PFC-2011-349</subfield>
        </datafield>
        <datafield tag="041" ind1=" " ind2=" ">
            <subfield code="a">spa</subfield>
        </datafield>
        <datafield tag="100" ind1="1" ind2=" ">
            <subfield code="a">Villalta Pérez, Carolina</subfield>
        </datafield>
        <datafield tag="245" ind1="0" ind2="0">
            <subfield code="a">Estudio de integración de clasificadores de rasgos fonéticos para la mejora de sistemas de reconocimiento de gran vocabulario</subfield>
        </datafield>
        <datafield tag="260" ind1=" " ind2=" ">
            <subfield code="a">Zaragoza</subfield>
            <subfield code="b">Universidad de Zaragoza</subfield>
            <subfield code="c">2011</subfield>
        </datafield>
        <datafield tag="506" ind1=" " ind2=" ">
            <subfield code="a">by-nc-sa</subfield>
            <subfield code="b">Creative Commons</subfield>
            <subfield code="c">3.0</subfield>
            <subfield code="u">http://creativecommons.org/licenses/by-nc-sa/3.0/</subfield>
        </datafield>
        <datafield tag="500" ind1=" " ind2=" ">
            <subfield code="a">Colaboración del I3A a través de la beca de iniciación a la investigación</subfield>
        </datafield>
        <datafield tag="520" ind1=" " ind2=" ">
            <subfield code="a">En los sistemas de inteligencia ambiental una parte fundamental la constituye el interfaz hombre-máquina, y dentro de éste, la interacción oral en ambos sentidos, de la que forman parte los sistemas tanto de reconocimiento automático como de síntesis de voz. En sistemas complejos la interacción simple por medio de comandos limita las posibilidades de un sistema de inteligencia ambiental, por ello es preciso tener disponibles reconocedores de voz de gran vocabulario. El trabajo de investigación propuesto tiene como objetivo la mejora de las prestaciones de un reconocedor automático de voz de gran vocabulario, medidas en tasa de errores de palabra. Para ello la investigación atenderá principalmente a la mejora del modelo acústico, dejando el de lenguaje por defecto. Las mejoras propuestas consistirán en el uso de clasificadores en una fase previa al procesado de extracción de características, de forma que la salida de estos clasificadores se pueda concatenar a los vectores de características utilizados comúnmente y facilitar el reconocimiento. Los clasificadores estarán especializados en la distinción de ciertos fonemas o grupos de fonemas, e incluso aspectos articulatorios o contextuales de la producción de la voz. A través de la experimentación con distintas bases de datos elegiremos cual es la opción que nos proporciona mejores resultados. En la extracción de características haremos uso de varios tipos, como los coeficientes MFCC( Mel Frequency Cepstral Coefficients ), los coeficientes PLP ( predicción lineal perceptual  ) o los coeficientes RASTA (Relative Spectral Transform). Para el diseño de los clasificadores se ensayarán distintas alternativas como redes neuronales, árboles de decisión, maquinas de soporte vectorial (SVMs), mezclas de gaussianas o redes bayesianas. En cuanto a la integración en el reconocedor, se ensayarán también distintas alternativas como el uso de distribuciones gaussianas, modelos gráficos o distribuciones beta.</subfield>
        </datafield>
        <datafield tag="521" ind1=" " ind2=" ">
            <subfield code="a">Ingeniero de Telecomunicaciones</subfield>
        </datafield>
        <datafield tag="540" ind1=" " ind2=" ">
            <subfield code="a">Derechos regulados por licencia Creative Commons</subfield>
        </datafield>
        <datafield tag="653" ind1="1" ind2=" ">
            <subfield code="a">extracción de características</subfield>
        </datafield>
        <datafield tag="653" ind1="1" ind2=" ">
            <subfield code="a">redes neuronales</subfield>
        </datafield>
        <datafield tag="653" ind1="1" ind2=" ">
            <subfield code="a">rah (reconocimiento automático del habla)</subfield>
        </datafield>
        <datafield tag="653" ind1="1" ind2=" ">
            <subfield code="a">gran vocabulario</subfield>
        </datafield>
        <datafield tag="700" ind1=" " ind2=" ">
            <subfield code="a">Miguel Artiaga, Antonio</subfield>
            <subfield code="e">dir.</subfield>
        </datafield>
        <datafield tag="710" ind1="2" ind2=" ">
            <subfield code="a">Universidad de Zaragoza</subfield>
            <subfield code="b">Ingeniería Electrónica y Comunicaciones</subfield>
            <subfield code="c">Teoría de la Señal y Comunicaciones</subfield>
        </datafield>
        <datafield tag="830" ind1=" " ind2=" ">
            <subfield code="a">CPS</subfield>
        </datafield>
        <datafield tag="856" ind1="0" ind2=" ">
            <subfield code="f">534862@celes.unizar.es</subfield>
        </datafield>
        <datafield tag="856" ind1="4" ind2=" ">
            <subfield code="s">2006240</subfield>
            <subfield code="u">http://zaguan.unizar.es/record/6119/files/TAZ-PFC-2011-349.pdf</subfield>
            <subfield code="y">Memoria (spa)</subfield>
        </datafield>
        <datafield tag="909" ind1="C" ind2="O">
            <subfield code="o">oai:zaguan.unizar.es:6119</subfield>
            <subfield code="p">driver</subfield>
            <subfield code="p">proyectos-fin-carrera</subfield>
        </datafield>
        <datafield tag="950" ind1=" " ind2=" ">
            <subfield code="a"></subfield>
        </datafield>
        <datafield tag="980" ind1=" " ind2=" ">
            <subfield code="a">TAZ</subfield>
            <subfield code="b">PFC</subfield>
            <subfield code="c">CPS</subfield>
        </datafield>
    </record>

    
</collection>