TAZ-TFG-2024-2911


Análisis del desajuste en las representaciones latentes multimodales con redes neuronales profundas

Lazar Crisan, Andrei Calin
Lleida Solano, Eduardo (dir.) ; Miguel Artiaga, Antonio (dir.)

Universidad de Zaragoza, EINA, 2024
Ingeniería Electrónica y Comunicaciones department, Teoría de la Señal y Comunicaciones area

Graduado en Ingeniería de Tecnologías y Servicios de Telecomunicación

Abstract: En la era digital, la cantidad de información ha crecido exponencialmente, planteando desafíos en su recuperación y uso, especialmente con datos multimodales que combinan texto, imágenes y audio. Este trabajo se centra en entender las cualidades de las representaciones vectoriales generadas por el modelo CLIP, que crea representaciones conjuntas de texto e imágenes en un espacio latente común. Para mejorar estas propiedades, se propone el diseño de funciones de pérdidas específicas que permiten modificar las características de las representaciones vectoriales, reduciendo las distancias intermodales y mejorando la alineación y eficacia. Se implementan técnicas avanzadas de optimización del entrenamiento y una herramienta de visualización que permite observar de manera geométrica el proceso de optimización, proporcionando una visión clara de la evolución de las representaciones durante el entrenamiento. Adicionalmente, se implementan técnicas de optimización del entrenamiento y se trabaja con datos multilingües para evaluar la robustez de las representaciones obtenidas.

Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License



El registro pertenece a las siguientes colecciones:
Academic Works > Trabajos Académicos por Centro > escuela-de-ingeniería-y-arquitectura
Academic Works > End-of-grade works



Back to search

Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)