000099805 001__ 99805
000099805 005__ 20210520140815.0
000099805 037__ $$aTESIS-2021-077
000099805 041__ $$aeng
000099805 1001_ $$aViñals Bailo, Ignacio
000099805 24500 $$aAdvances in Subspace-based Solutions for Diarization in the Broadcast Domain
000099805 260__ $$aZaragoza$$bUniversidad de Zaragoza, Prensas de la Universidad$$c2020
000099805 300__ $$a238
000099805 4900_ $$aTesis de la Universidad de Zaragoza$$v2021-77$$x2254-7606
000099805 500__ $$aPresentado:  02 10 2020
000099805 502__ $$aTesis-Univ. Zaragoza,  , 2020$$bZaragoza, Universidad de Zaragoza$$c2020
000099805 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/es
000099805 520__ $$aLa motivación de esta tesis es la necesidad de soluciones robustas al problema de diarización. Estas técnicas de diarización deben proporcionar valor añadido a la creciente cantidad disponible de datos multimedia mediante la precisa discriminación de los locutores presentes en la señal de audio. Desafortunadamente, hasta tiempos recientes este tipo de tecnologías solamente era viable en condiciones restringidas, quedando por tanto lejos de una solución general. <br />Las razones detrás de las limitadas prestaciones de los sistemas de diarización son múltiples. La primera causa a tener en cuenta es la alta complejidad de la producción de la voz humana, en particular acerca de los procesos fisiológicos necesarios para incluir las características discriminativas de locutor en la señal de voz. Esta complejidad hace del proceso inverso, la estimación de dichas características a partir del audio, una tarea ineficiente por medio de las técnicas actuales del estado del arte. Consecuentemente, en su lugar deberán tenerse en cuenta aproximaciones. Los esfuerzos en la tarea de modelado han proporcionado modelos cada vez más elaborados, aunque no buscando la explicación última de naturaleza fisiológica de la señal de voz. En su lugar estos modelos aprenden relaciones entre la señales acústicas a partir de un gran conjunto de datos de entrenamiento. El desarrollo de modelos aproximados genera a su vez una segunda razón, la variabilidad de dominio. Debido al uso de relaciones aprendidas a partir de un conjunto de entrenamiento concreto, cualquier cambio de dominio que modifique las condiciones acústicas con respecto a los datos de entrenamiento condiciona las relaciones asumidas, pudiendo causar fallos consistentes en los sistemas.<br />Nuestra contribución a las tecnologías de diarización se ha centrado en el entorno de radiodifusión. Este dominio es actualmente un entorno todavía complejo para los sistemas de diarización donde ninguna simplificación de la tarea puede ser tenida en cuenta. Por tanto, se deberá desarrollar un modelado eficiente del audio para extraer la información de locutor y como inferir el etiquetado correspondiente. Además, la presencia de múltiples condiciones acústicas debido a la existencia de diferentes programas y/o géneros en el domino requiere el desarrollo de técnicas capaces de adaptar el conocimiento adquirido en un determinado escenario donde la información está disponible a aquellos entornos donde dicha información es limitada o sencillamente no disponible.<br />Para este propósito el trabajo desarrollado a lo largo de la tesis se ha centrado en tres subtareas: caracterización de locutor, agrupamiento y adaptación de modelos. La primera subtarea busca el modelado de un fragmento de audio para obtener representaciones precisas de los locutores involucrados, poniendo de manifiesto sus propiedades discriminativas. En este área se ha llevado a cabo un estudio acerca de las actuales estrategias de modelado, especialmente atendiendo a las limitaciones de las representaciones extraídas y poniendo de manifiesto el tipo de errores que pueden generar. Además, se han propuesto alternativas basadas en redes neuronales haciendo uso del conocimiento adquirido. La segunda tarea es el agrupamiento, encargado de desarrollar estrategias que busquen el etiquetado óptimo de los locutores. La investigación desarrollada durante esta tesis ha propuesto nuevas estrategias para estimar el mejor reparto de locutores basadas en técnicas de subespacios, especialmente PLDA. Finalmente, la tarea de adaptación de modelos busca transferir el conocimiento obtenido de un conjunto de entrenamiento a dominios alternativos donde no hay datos para extraerlo. Para este propósito los esfuerzos se han centrado en la extracción no supervisada de información de locutor del propio audio a diarizar, sinedo posteriormente usada en la adaptación de los modelos involucrados.<br />
000099805 520__ $$a<br />
000099805 521__ $$97106$$aPrograma de Doctorado en Tecnologías de la Información y Comunicaciones en Redes Móviles
000099805 6531_ $$ainteligencia artificial
000099805 6531_ $$atratamiento de señales
000099805 6531_ $$aredes neuronales
000099805 6531_ $$ateoria de la informacion
000099805 700__ $$aOrtega Giménez, Alfonso $$edir.
000099805 7102_ $$aUniversidad de Zaragoza$$b 
000099805 830__ $$9518
000099805 8560_ $$ftdr@unizar.es
000099805 8564_ $$s7861736$$uhttps://zaguan.unizar.es/record/99805/files/TESIS-2021-077.pdf$$zTexto completo (eng)
000099805 909CO $$ooai:zaguan.unizar.es:99805$$pdriver
000099805 909co $$ptesis
000099805 9102_ $$a$$b 
000099805 980__ $$aTESIS
Universidad de Zaragoza Repository