Robust diarization for speaker characterization (Diarizació(...).pdf

Robust diarization for speaker characterization (Diarización robusta para caracterización de locutores)

Vaquero Avilés-Casco, Carlos
Ortega Giménez, Alfonso (dir.)

Universidad de Zaragoza, 2011

Resumen: La tarea de caracterización de locutores, cuyo objetivo es describir las peculiaridades particulares y distintivas del habla de una persona, es esencial para muchas tecnologías y aplicaciones basadas en el habla. El ejemplo más claro es la biometría basada en la voz, pero también el reconocimiento del habla puede aprovecharse de la caracterización de locutores utilizando técnicas de adaptación al locutor. Las técnicas de caracterización de locutores requiren grandes bases de datos con etiquetas de locutor para operar, pero en muchos entornos, incluso cuando existen bases de datos apropiadas, éstas no son útiles para la caracterización de locutores. Un problema habitual es que cada grabación de la base datos contiene muchos locutores, y no existen etiquetas indicando cuando habla cada locutor. La solución a este problema es el uso de diarización de locutores, cuyo objetivo es responder a la pregunta "¿Quién ha hablado en cada momento?". Esta tesis se centra en proporcionar robustez a la diarización de locutores para que sea utilizada en aplicaciones reales de caracterización de locutores. Para ello, se persiguen dos objetivos complementarios: en primer lugar, se requiere el desarrollo de sistemas de diarización precisos, para asegurar que las aplicaciones de caracterización de locutores operarán correctamente cuando utilicen grabaciones con más de un locutor. En segundo lugar, se requieren técnicas para la evaluación de la calidad de las hipótesis de diarización, para detectar aquellas grabaciones que serían fiables para la caracterización de locutores. Para alcanzar estos objetivos, se revisan las técnicas de diarización tradicionales, así como el impacto que tienen los errores de diarización en una tarea de verificación de locutor. Se demuestra que las estrategias tradicionales de diarización pueden no ser suficientemente precisas para determinadas aplicaciones. Para resolver este problema, se propone una nueva aproximación para diarización de locutores basada en los recientes avances obtenidos en el campo de reconocimiento de locutores. Estos avances incrementan la precisión de la diarización y verificación de locutores cuando se consideran conversaciones telefónicas de dos locutores, un entorno muy habitual en aplicaciones biométricas basadas en voz. Después, el análisis se extiende a problemas con más de dos locutores, y se analizan nuevas técnicas de clustering de locutores. El sistema de diarización propuesto también obtiene mejores prestaciones que los sistemas tradicionales cuando se desconoce el número de locutores. Finalmente, se incluye un estudio sobre evaluación de calidad para diarización. Se proponen varias medidas de confianza y una metodología para la detección de grabaciones con hipótesis de diarización fiables. Esta metodología permite recuperar una parte de una base de datos dada, compuesta por grabaciones fiables, de forma que una aplicación de caracterización de locutores no obtendrá una degradación significativa debido a errores de diarización. Se demuestra que la metodología es útil para aplicaciones de caracterización de locutores tales como verificación o clustering de locutores. Además se demuestra que, en combinación con una estrategía de generación y selección de hipótesis, incrementa la precisión de la diarización de locutores. La recuperación de grabaciones fiables es muy útil para procesar una base de datos de forma semisupervisada, ya que sólo es necesario inspeccionar manualmente la porción de la base de datos no detectada como fiable. La porción a inspeccionar será pequeña cuando se consideren sistemas de diarización precisos, como el que se propone en esta tesis.