TAZ-TFM-2018-252


Segmentación automática de audio con modelos basados en redes neuronales para entornos Broadcast

Gimeno Jordán, Pablo
Ortega Giménez, Alfonso (dir.) ; Viñals Bailo, Ignacio (dir.)

Universidad de Zaragoza, EINA, 2018
Departamento de Ingeniería Electrónica y Comunicaciones, Área de Teoría de la Señal y Comunicaciones

Máster Universitario en Ingeniería de Telecomunicación

Resumen: Debido al aumento de generación de contenido multimedia los sistemas que permiten extraer información de forma automática de este tipo de señales se están volviendo cada vez más importantes. Un ejemplo de estos son los sistemas de segmentación automática de audio, sobre los que se centra este Trabajo Fin de Máster. El objetivo de un sistema de segmentación de audio es obtener una indexación a bajo nivel para poder separar entornos acústicos distintos en la señal de audio. En concreto, en este Trabajo Fin de Máster se pretende separar aquellos fragmentos que contengan voz, música, ruido o una combinación de estos. El acercamiento que se propone a la tarea de segmentación toma como núcleo del sistema el aprendizaje supervisado mediante redes neuronales. De las diferentes arquitecturas neuronales disponibles, el sistema implementado esta basado en Redes Neuronales Recurrentes por su capacidad para el modelado de secuencias temporales. Tras una serie de experimentos iniciales donde se ajustaron los parámetros principales que rigen la arquitectura neuronal, se realizó una exploración de las posibilidades que brindaba el espacio de características de entrada. Por un lado, se aumentó la resolución del análisis frecuencial lo que se tradujo en una mejora relativa del 5,42% del error obtenido. Por otro lado, con el objetivo de aumentar la discriminación en las clases que contienen música, se introdujeron las características chroma obteniendo una mejora relativa del error del 6,04%. Teniendo en cuenta la alta correlación entre muestras adyacentes en la señal de audio se evaluaron diferentes técnicas de refuerzo del contexto a corto plazo en la clasificación como el apilado temporal o el uso de capas convolucionales, lo que se tradujo en una mejora relativa del 2,63%. Finalmente, sobre una de las mejores configuraciones obtenidas, se realizaron una serie de experimentos para caracterizar el sistema de resegmentación propuesto, basado en Modelos Ocultos de Markov y con el objetivo de refinar la salida de la red neuronal. Con este bloque se consiguió reducir considerablemente el error en la segmentación, obteniendo el mejor resultado de este Trabajo Fin de Máster y resultando en una mejora relativa cercana al 12%. A la vista de los resultados obtenidos en este Trabajo Fin de Máster, se ha conseguido obtener un sistema de segmentación automático con resultados competitivos, llegando a mejorar ligeramente los mejores resultados de la literatura hasta la fecha.

Tipo de Trabajo Académico: Trabajo Fin de Master

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Trabajos fin de máster



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)