TAZ-TFG-2024-2911


Análisis del desajuste en las representaciones latentes multimodales con redes neuronales profundas

Lazar Crisan, Andrei Calin
Lleida Solano, Eduardo (dir.) ; Miguel Artiaga, Antonio (dir.)

Universidad de Zaragoza, EINA, 2024
Departamento de Ingeniería Electrónica y Comunicaciones, Área de Teoría de la Señal y Comunicaciones

Graduado en Ingeniería de Tecnologías y Servicios de Telecomunicación

Resumen: En la era digital, la cantidad de información ha crecido exponencialmente, planteando desafíos en su recuperación y uso, especialmente con datos multimodales que combinan texto, imágenes y audio. Este trabajo se centra en entender las cualidades de las representaciones vectoriales generadas por el modelo CLIP, que crea representaciones conjuntas de texto e imágenes en un espacio latente común. Para mejorar estas propiedades, se propone el diseño de funciones de pérdidas específicas que permiten modificar las características de las representaciones vectoriales, reduciendo las distancias intermodales y mejorando la alineación y eficacia. Se implementan técnicas avanzadas de optimización del entrenamiento y una herramienta de visualización que permite observar de manera geométrica el proceso de optimización, proporcionando una visión clara de la evolución de las representaciones durante el entrenamiento. Adicionalmente, se implementan técnicas de optimización del entrenamiento y se trabaja con datos multilingües para evaluar la robustez de las representaciones obtenidas.

Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Trabajos fin de grado



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)