000171695 001__ 171695
000171695 005__ 20260529105355.0
000171695 037__ $$aTESIS-2026-066
000171695 041__ $$aeng
000171695 1001_ $$aMur Labadia, Lorenzo
000171695 24500 $$aLearning visual models for egocentric perception
000171695 260__ $$aZaragoza$$bUniversidad de Zaragoza, Prensas de la Universidad$$c2026
000171695 300__ $$a258
000171695 4900_ $$aTesis de la Universidad de Zaragoza$$v2026-66$$x2254-7606
000171695 500__ $$aPresentado:  15 01 2026
000171695 502__ $$aTesis-Univ. Zaragoza,  , 2026$$bZaragoza, Universidad de Zaragoza$$c2026
000171695 506__ $$aby-nc$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc/3.0/es
000171695 520__ $$aLa visión egocéntrica posee un gran potencial para revolucionar la interacción humano-máquina, al permitir que los sistemas perciban e interpreten el mundo desde la perspectiva del usuario. En los vídeos en primera persona, el actor se desplaza de manera continua dentro de un entorno dinámico, lo que exige el desarrollo de modelos capaces de predecir las intenciones del usuario, detectar objetos y sus funcionalidades, y razonar sobre la relevancia de la escena tridimensional circundante. El objetivo de esta tesis es avanzar en la percepción egocéntrica mediante el desarrollo de modelos visuales de objetos, affordances y entornos, integrando la visión en primera persona con representaciones multimodales.<br />Como primer paso, se modela el mundo como una colección de objetos funcionales, en los cuales cada objeto posibilita distintas interacciones. Se propone aprender a segmentar con precisión las partes de los objetos en función de las affordances asociadas, así como cuantificar la incertidumbre de dichas predicciones. Si bien la detección de affordances proporciona información valiosa sobre la funcionalidad de los objetos, no resulta suficiente para una comprensión completa de la escena, dado que los objetos están integrados en un espacio físico más amplio: el entorno. Con este fin, se introduce un mapa de affordances multi-etiqueta que vincula zonas centradas en la actividad con ubicaciones espaciales, demostrando su utilidad en la navegación orientada a tareas específicas. Para reforzar la robustez temporal, se propone una estrategia de fusión que aprovecha la distribución predictiva de una red neuronal bayesiana. Finalmente, con el propósito de capturar de manera más efectiva la dinámica de los videos egocéntricos y conseguir una mayor comprensión semántica, se representa el entorno mediante funciones implícitas a través de un campo neuronal de radiancia descompuesto.<br />En la siguiente parte del trabajo, se combinan los modelos de objetos y affordances para mejorar la anticipación de las interacciones a corto plazo. Se introducen arquitecturas end-to-end que extienden los detectores de objetos clásicos para la anticipación, y se exploran estrategias para fundamentar las predicciones de anticipación en el comportamiento humano previo, utilizando para ello las affordances del entorno y las zonas de interacción preferente (interaction hotspots).<br />Por último, se amplía la percepción egocéntrica mediante la integración de representaciones multimodales. En primer lugar, se alinea el vídeo en primera persona con el lenguaje natural, localizando los límites temporales de las actividades en videos extensos. En segundo lugar, se conectan las perspectivas en primera y en tercera persona, reformulando la segmentación entre vistas como una tarea de correspondencia de máscaras de objetos, lo que permite una alineación eficaz de las representaciones de objetos entre diferentes puntos de vista.<br />En conjunto, los métodos propuestos en esta tesis alcanzan el estado del arte en una amplia gama de tareas de percepción egocéntrica. Se espera que este trabajo sirva de inspiración para futuras investigaciones en el campo de la percepción visual en primera persona.<br />
000171695 520__ $$a<br />
000171695 521__ $$97100$$aPrograma de Doctorado en Ingeniería de Sistemas e Informática
000171695 540__ $$9info:eu-repo/semantics/openAccess
000171695 6531_ $$avisión egocéntrica 
000171695 6531_ $$ainteracción humano-máquina
000171695 6531_ $$aaffordances visuales 
000171695 6531_ $$aanticipación de interacciones
000171695 6531_ $$acampos neuronal de radiancia
000171695 6531_ $$arepresentaciones multimodales
000171695 6531_ $$acorrespondencia entre vistas 
000171695 691__ $$a1 3 15
000171695 692__ $$aErradicar la pobreza en todas sus formas en todo el mundo.	 Garantizar una vida saludable y promover el bienestar para todos y todas en todas las edades.	 Proteger, restaurar y promover la utilización sostenible de los ecosistemas terrestres, gestionar de manera sostenible los bosques, combatir la desertificación y detener y revertir la degradación de la tierra, y frenar la pérdida de diversidad biológica.
000171695 700__ $$aMartínez Cantín, Rubén $$edir.
000171695 700__ $$aGuerrero Campo, Josechu $$edir.
000171695 7102_ $$aUniversidad de Zaragoza$$b 
000171695 830__ $$9512
000171695 8560_ $$fcdeurop@unizar.es
000171695 8564_ $$s52575515$$uhttps://zaguan.unizar.es/record/171695/files/TESIS-2026-066.pdf$$zTexto completo (eng)
000171695 909CO $$ooai:zaguan.unizar.es:171695$$pdriver
000171695 909co $$ptesis
000171695 9102_ $$aIngeniería y Arquitectura$$b 
000171695 980__ $$aTESIS
Dépôt institutionnel de documents