Página principal > Desarrollo y evaluación de un sistema de identificación de audios no musicales ni habla, mediante el uso de modelos de aprendizaje profundo
TAZ-TFM-2024-1607
Desarrollo y evaluación de un sistema de identificación de audios no musicales ni habla, mediante el uso de modelos de aprendizaje profundo
Resumen: La identificación y clasificación de sonidos de habla y música ha avanzado y evolucionado mucho en los últimos años. Sin embargo, los eventos de sonido, que no se incluyen en esas dos categorías, siguen suponiendo un gran desafío. Lo cual se debe tanto a la variabilidad impredecible de los sonidos, como a la complejidad del etiquetado de los datos. Para abordar el problema se plantea un sistema compuesto de dos redes neuronales, un codificador y un clasificador, que en conjunto deben ser capaces de caracterizar y clasificar los audios de entrada. La investigación se divide en tres partes: tratamiento de bases de datos, adaptación del modelo de codificación y desarrollo de la clasificación de audio. Para la extracción de características, se propone emplear un modelo de codificación y decodificación preentrenado, empleando el codificador para la caraterización de los audios. Para ello se plantea el uso de modelos basados en '\textit{SoundStream}', que busca realizar representaciones eficientes de audio, mejorando así tanto la calidad del sonido como la capacidad de clasificación. El codificador se conectará a un clasificador neuronal, que es el encargado de analizar las características extraídas y asignarles etiquetas correspondientes a eventos específicos. En conjunto, se busca una arquitectura de codificación y clasificación que proporcione una solución innovadora al desafío planteado en este contexto específico.