Resumen: En la era digital, la cantidad de información ha crecido exponencialmente, planteando desafíos en su recuperación y uso, especialmente con datos multimodales que combinan texto, imágenes y audio. Este trabajo se centra en entender las cualidades de las representaciones vectoriales generadas por el modelo CLIP, que crea representaciones conjuntas de texto e imágenes en un espacio latente común. Para mejorar estas propiedades, se propone el diseño de funciones de pérdidas específicas que permiten modificar las características de las representaciones vectoriales, reduciendo las distancias intermodales y mejorando la alineación y eficacia. Se implementan técnicas avanzadas de optimización del entrenamiento y una herramienta de visualización que permite observar de manera geométrica el proceso de optimización, proporcionando una visión clara de la evolución de las representaciones durante el entrenamiento. Adicionalmente, se implementan técnicas de optimización del entrenamiento y se trabaja con datos multilingües para evaluar la robustez de las representaciones obtenidas.