Representation and Metric Learning Advances for Deep Neural (...).pdf

Representation and Metric Learning Advances for Deep Neural Network Face and Speaker Biometric Systems

Mingote Bueno, Victoria
Miguel Artiaga, Antonio (dir.)

Universidad de Zaragoza, 2022

Resumen: El aumento del uso de dispositivos tecnológicos y sistemas de reconocimiento biométrico en la vida cotidiana de las personas ha motivado un gran interés en la investigación y el desarrollo de sistemas eficaces y robustos. Sin embargo, todavía existen algunos retos que resolver en estos sistemas cuando se emplean redes neuronales profundas. Por esta razón, esta tesis propone diferentes enfoques para abordar estas cuestiones.
En primer lugar, hemos analizado el efecto de introducir las arquitecturas de redes neuronales profundas más extendidas para desarrollar sistemas para tareas de verificación de caras y locutores dependientes del texto. En este análisis, hemos observado que las redes neuronales profundas del estado del arte establecidas para muchas tareas, incluyendo la verificación de caras, no funcionan de forma eficiente para la verificación de locutores dependientes del texto. Por lo tanto, hemos realizado un estudio para encontrar la causa de este pobre rendimiento y hemos notado que este problema se debe al uso de la capa de promediado global como mecanismo de agrupación en las arquitecturas de redes neuronales profundas. Dado que el orden de la información fonética es relevante en la tarea de verificación del locutor dependiente del texto, si se emplea una agrupación de promediado global, este orden se descuida y los resultados obtenidos para las métricas de rendimiento son demasiado altos. Por lo tanto, el primer enfoque propuesto en esta tesis es un mecanismo de alineamiento que se utiliza para reemplazar el uso del promediado global como mecanismo de agrupación. Este mecanismo de alineamiento permite mantener la estructura temporal y codificar la frase y la identidad del locutor en un supervector. Como mecanismo de alineamiento, se pueden utilizar diferentes tipos de planteamientos como los modelos ocultos de Markov o los modelos de mezcla de Gaussianas. Además, durante el desarrollo de este mecanismo, también observamos que la falta de bases de datos de entrenamiento más grandes es otro problema importante para crear estos sistemas. Por lo tanto, también hemos introducido una nueva filosofía de arquitectura basada en el enfoque de destilación de conocimiento. Esta arquitectura es conocida como arquitectura profesor-estudiante y proporciona robustez a los sistemas durante el proceso de entrenamiento y contra un posible sobreajuste debido a la falta de datos. En esta parte, se propone otro enfoque alternativo para centrarse en los instantes relevantes de la secuencia y mantener la información fonética, dicho enfoque consiste en la auto-atención multi-cabezal. La arquitectura propuesta para utilizar las capas de auto-atención multi-cabezal también introduce incrustaciones fonéticas y capas de memoria para mejorar la discriminación entre locutores y expresiones. Además, para completar la arquitectura con las técnicas anteriores, se ha incorporado otro enfoque en el que se han introducido dos vectores aprendibles que se denominan tokens de clase y de destilación. Utilizando estos tokens durante el entrenamiento, se mantiene la información temporal y se codifica en los tokens, de manera que al final se obtiene un descriptor global de los enunciados similar al supervector.
Además de los enfoques anteriores para obtener representaciones robustas, la otra parte principal de esta tesis se ha centrado en la introducción de nuevas funciones de pérdida para entrenar arquitecturas de redes neuronales profundas. Las funciones de pérdida tradicionales han proporcionado resultados razonablemente buenos para muchas tareas, pero no suelen estar diseñadas para optimizar la tarea objetivo. Por esta razón, hemos propuesto varias funciones de pérdida nuevas como objetivo para entrenar arquitecturas de redes neuronales profundas que se basan en las métricas finales de verificación. El primer enfoque desarrollado para esta parte se inspira en el Área Bajo la Curva ROC. Así que hemos presentado una aproximación diferenciable de esta métrica denominada aAUC loss para entrenar con éxito una red neuronal de tripletes como back-end. Sin embargo, la selección de los datos de entrenamiento tiene que ser cuidadosamente realizada para llevar a cabo este back-end, por lo que esto supone un alto coste computacional. Por lo tanto, hemos desarrollado varios enfoques para aprovechar el entrenamiento con una función de pérdida orientada a la tarea objetivo pero manteniendo la eficiencia y velocidad del entrenamiento multiclase. Para implementar estos enfoques, se han empleado como objetivo de entrenamiento la aproximación diferenciable de las siguientes métricas de verificación, la función de coste de detección (aDCF) y el coste de la relación de log-verosimilitud (CLLR). Al optimizar las arquitecturas de redes neuronales profundas para minimizar estas funciones de pérdida, el sistema aprende a reducir los errores en las decisiones y las puntuaciones producidas. El uso de estos enfoques también ha demostrado una mejor capacidad para aprender representaciones más generales que el entrenamiento con otras funciones de pérdida tradicionales. Por último, también hemos propuesto un nuevo back-end sencillo que emplea la información aprendida por la matriz de la última capa de la arquitectura de redes neuronales profundas durante el entrenamiento con la aDCF loss. Utilizando la matriz de esta última capa, se entrena un modelo de inscripción con un vector aprendible para cada identidad de inscripción para realizar el proceso de verificación.

Resumen (otro idioma):