Resumen: Los seres humanos somos capaces de inferir una gran cantidad de información sobre los materiales que nos rodean con solo observarlos brevemente: si una superficie es rugosa, brillante, metálica o blanda. Esta percepción innata que tenemos resulta fundamental para la interacción con nuestro entorno. Sin embargo, replicarla computacionalmente es un reto complejo, ya que la apariencia de un material depende de múltiples factores como la geometría, la iluminación o el punto de vista. En este Trabajo de Fin de Grado se estudia en profundidad un modelo de predicción de similitud en la apariencia de materiales propuesto por Lagunas et al. (2019), basado en aprendizaje profundo con redes neuronales convolucionales entrenadas mediante tripletas de imágenes. El objetivo principal es evaluar la capacidad del modelo para alinear su comportamiento con la percepción humana y, especialmente, analizar su rendimiento fuera del conjunto de datos original. Para ello, se han seleccionado y utilizado múltiples fuentes de datos: desde imágenes sintéticas generadas con BRDFs medidas hasta imágenes de fotografías reales de materiales. Se han explorado distintos factores que pueden afectar al rendimiento del modelo, como la variación de geometría, material o iluminación, así como transformaciones en las imágenes como recortes o enmascarados. Además, se han comparado distintas métricas de similitud ---como CSSIM, \textit{Maximum Mean Discrepancy} o métricas basadas en BRDF--- con el modelo de Lagunas. También se ha evaluado la robustez del modelo frente a varias transformaciones y se ha implementado una visualización de activaciones mediante Grad-CAM y PCA, que ha permitido analizar internamente en qué se fija la red al realizar sus predicciones. Los resultados obtenidos reflejan que el modelo presenta un rendimiento competitivo, pero muestra una sensibilidad notable a las variaciones en el fondo o en las condiciones de iluminación, lo cual puede afectar negativamente a su coherencia perceptual. Las visualizaciones han revelado que el modelo tiende a fijarse en zonas con reflejos y en regiones de alto brillo o contraste, en ocasiones desplazando su atención hacia el fondo. Por último, se ha modificado el modelo base para que ignore el fondo de las imágenes mediante la aplicación de máscaras durante el entrenamiento, eliminando así las activaciones de las regiones no pertenecientes a la geometría del objeto. Además, se ha realizado un proceso de optimización automática de hiperparámetros y se han analizado las respuestas de este modelo modificado comparado con las del modelo base, aunque sin lograr mejoras sustanciales de robustez. En conjunto, este trabajo aporta un análisis detallado del modelo de Lagunas et al. (2019) de similitud en la apariencia de materiales, destacando tanto sus puntos fuertes como sus limitaciones y planteando futuras líneas de mejora. Entre ellas, se encuentran el diseño de nuevas estrategias de entrenamiento, la incorporación de mecanismos que enfoquen la atención en la geometría y el material, o la exploración de modificaciones arquitectónicas más adaptadas a la percepción visual de materiales.