engMur Labadia, LorenzoMartínez Cantín, Rubén Guerrero Campo, Josechu Learning visual models for egocentric perceptionTESIS-2026-066La visión egocéntrica posee un gran potencial para revolucionar la interacción humano-máquina, al permitir que los sistemas perciban e interpreten el mundo desde la perspectiva del usuario. En los vídeos en primera persona, el actor se desplaza de manera continua dentro de un entorno dinámico, lo que exige el desarrollo de modelos capaces de predecir las intenciones del usuario, detectar objetos y sus funcionalidades, y razonar sobre la relevancia de la escena tridimensional circundante. El objetivo de esta tesis es avanzar en la percepción egocéntrica mediante el desarrollo de modelos visuales de objetos, affordances y entornos, integrando la visión en primera persona con representaciones multimodales. Como primer paso, se modela el mundo como una colección de objetos funcionales, en los cuales cada objeto posibilita distintas interacciones. Se propone aprender a segmentar con precisión las partes de los objetos en función de las affordances asociadas, así como cuantificar la incertidumbre de dichas predicciones. Si bien la detección de affordances proporciona información valiosa sobre la funcionalidad de los objetos, no resulta suficiente para una comprensión completa de la escena, dado que los objetos están integrados en un espacio físico más amplio: el entorno. Con este fin, se introduce un mapa de affordances multi-etiqueta que vincula zonas centradas en la actividad con ubicaciones espaciales, demostrando su utilidad en la navegación orientada a tareas específicas. Para reforzar la robustez temporal, se propone una estrategia de fusión que aprovecha la distribución predictiva de una red neuronal bayesiana. Finalmente, con el propósito de capturar de manera más efectiva la dinámica de los videos egocéntricos y conseguir una mayor comprensión semántica, se representa el entorno mediante funciones implícitas a través de un campo neuronal de radiancia descompuesto. En la siguiente parte del trabajo, se combinan los modelos de objetos y affordances para mejorar la anticipación de las interacciones a corto plazo. Se introducen arquitecturas end-to-end que extienden los detectores de objetos clásicos para la anticipación, y se exploran estrategias para fundamentar las predicciones de anticipación en el comportamiento humano previo, utilizando para ello las affordances del entorno y las zonas de interacción preferente (interaction hotspots). Por último, se amplía la percepción egocéntrica mediante la integración de representaciones multimodales. En primer lugar, se alinea el vídeo en primera persona con el lenguaje natural, localizando los límites temporales de las actividades en videos extensos. En segundo lugar, se conectan las perspectivas en primera y en tercera persona, reformulando la segmentación entre vistas como una tarea de correspondencia de máscaras de objetos, lo que permite una alineación eficaz de las representaciones de objetos entre diferentes puntos de vista. En conjunto, los métodos propuestos en esta tesis alcanzan el estado del arte en una amplia gama de tareas de percepción egocéntrica. Se espera que este trabajo sirva de inspiración para futuras investigaciones en el campo de la percepción visual en primera persona. Universidad de Zaragoza, Prensas de la Universidad2026http://zaguan.unizar.es/record/171695http://zaguan.unizar.es/record/171695oai:zaguan.unizar.es:171695