000170487 001__ 170487
000170487 005__ 20260424111314.0
000170487 037__ $$aTESIS-2026-024
000170487 041__ $$aeng
000170487 1001_ $$aIzquierdo Barranco, Sergio
000170487 24500 $$aDeep Spatial Perception: Localization & Reconstruction
000170487 260__ $$aZaragoza$$bUniversidad de Zaragoza, Prensas de la Universidad$$c2025
000170487 300__ $$a92
000170487 4900_ $$aTesis de la Universidad de Zaragoza$$v2026-24$$x2254-7606
000170487 500__ $$aPresentado:  06 11 2025
000170487 502__ $$aTesis-Univ. Zaragoza,  , 2025$$bZaragoza, Universidad de Zaragoza$$c2025
000170487 506__ $$aby-nc-nd$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-nd/3.0/es
000170487 520__ $$aDeterminar la ubicación de un agente y saber representar su entorno son dos capacidades esenciales para el correcto funcionamiento de sistemas inteligentes con conocimiento espacial. Estas tareas, conocidas comúnmente como localización y reconstrucción o mapeado, han sido estudiadas durante décadas en la comunidad de visión por computador, ya que muchas aplicaciones, como la realidad aumentada o la robótica,<br />dependen en gran medida de ellas para interactuar de forma coherente en el mundo físico.<br />Uno de los primeros pasos en la localización de un agente es obtener una estimación aproximada de su ubicación, para lo cual el Reconocimiento Visual de Lugares, conocido como VPR por sus siglas en inglés, ofrece una solución eficaz cuando se dispone de una base de datos de imágenes georreferenciadas. Uno de los principales desafíos en VPR consiste en diseñar descriptores que sean compactos, informativos y discriminativos, pero que además se mantengan robustos ante fuertes cambios de punto de vista, variaciones estructurales o de iluminación. En este contexto, la primera parte de esta tesis propone dos direcciones complementarias para avanzar en VPR. En primer lugar, presentamos un método de agregación de características basado en la teoría de transporte óptimo. Además proponemos utilizar una potente<br />arquitectura como red neuronal para obtener descriptores de imagen más robustos. En segundo lugar, proponemos una nueva estrategia de entrenamiento que mejora la sensibilidad geográfica de los descriptores seleccionando ejemplos difíciles basándonos tanto en similitud visual como en distancia espacial. Estas contribuciones suponen un avance hacia sistemas de VPR efectivos, escalables y versátiles, mejorando<br />significativamente los resultados en benchmarks populares como MSLS Challenge o Nordland.<br />Dentro del campo de la reconstrucción o mapeado de escenas, la estimación de profundidad a partir de una sola imagen se suele considerar una de las tareas clave. Si bien es conocido que el uso de múltiples vistas aporta información geométrica que permite resolver ambigüedades y mejorar la precisión, el problema a resolver es cómo diseñar métodos capaces de aprovechar esta información de forma robusta en escenarios<br />diversos y de propósito general. La segunda parte de esta tesis propone dos métodos para aprovechar las información multivista en la estimación de profundidad. Primero, presentamos un método de refinamiento en tiempo de inferencia que utiliza nubes de puntos 3D no densas obtenidas mediante Structure-from-Motion para guiar a las redes de profundidad monocular durante su ejecución, preservando así los conocimientos de la red mientras se incorporan restricciones geométricas adicionales. En segundo lugar, proponemos una arquitectura multivista de propósito general diseñada para operar de forma robusta en entornos variados y con rangos de profundidad diversos. Nuestras contribuciones se centran en la versatilidad: entrenando con múltiples conjuntos de datos, afrontando escenas con poco solapamiento y objetos dinámicos, y eliminando restricciones como el conocimiento previo del rango de profundidades. Conjuntamente, estas contribuciones muestran el potencial de combinar lo aprendido por las redes con restricciones geométricas, dando pasos hacia una integración fluida de la información multivista en la estimación de profundidad. Concretamente, el refinamiento que hemos propuesto ha mejorado todos los métodos de profundidad que probamos y el sistema de profundidad multivista que hemos desarrollado obtiene los mejores resultados actuales en el<br />Robust Multi-View Depth Benchmark.<br />
000170487 520__ $$aDetermining the location of an agent and representing its surroundings are two essential capabilities for the successful deployment of intelligent systems with spatial awareness. Commonly referred to as localizatio and reconstruction or mapping, these tasks have been studied for decades in the computer vision community, as many applications—such as augmented reality and robotics—rely heavily on them to operate coherently within the physical world. One of the first steps in localizing an agent is retrieving its coarse location, for which Visual Place Recognition (VPR) provides an effective solution when a database of georeferenced images is available. A key challenge in VPR lies in designing compact, informative, and discriminative descriptors that remain robust under strong viewpoint changes, structural variations, and lighting conditions. In this context, the first part of this thesis proposes two complementary directions to advance VPR. First, we introduce a novel feature aggregation method based on optimal transport, paired with a powerful vision transformer backbone, to produce more robust image descriptors. Second, we propose a new training strategy that enhances the geographic sensitivity of these descriptors by selecting hard training samples based on both visual similarity and spatial distance. Together, these contributions advance towards effective, large-scale, and general VPR pipelines, significantly improving metrics at popular benchmarks, like MSLS Challenge, where we improved recall@1 from 67.4% to 82.7% and Nordland, from 58.4% to 90.7%. Within the broader task of scene reconstruction or mapping, monocular depth estimation is one of the core pieces. While it is well understood how multiple views naturally provide geometric cues to resolve ambiguities and improve accuracy, the enduring question is how to design methods that can robustly exploit this information across diverse scenarios in a general-purpose manner. The second part of this thesis proposes two novel methods for leveraging multi-view constraints for depth estimation. First, we introduce a test-time refinement method that uses sparse 3D points from Structure-from-Motion to guide single-viewdepth networks during inference. This preserves the learned priors of single-viewdepth networks while injecting additional multi-view constraints. Second, we propose a general-purpose multi-view stereo architecture designed to operate robustly across diverse environments and depth scales. Our contributions focus on versatility, training on multiple datasets, addressing low overlap and dynamic objects, and removing restrictions like a priori depth range knowledge. Together, these contributions demonstrate the potential of combining learned priors with geometric constraints, showing promising steps towards a seamless integration of multi-viewinformation in depth estimation. More precisely, our proposed refinement improved all considered single-view depth models, and our general-purpose multi-view stereo system obtained state-of-the-art results on the Robust Multi-View Depth Benchmark.<br />
000170487 521__ $$97100$$aPrograma de Doctorado en Ingeniería de Sistemas e Informática
000170487 540__ $$9info:eu-repo/semantics/openAccess
000170487 6531_ $$avisión por computador
000170487 6531_ $$areconocimiento visual de lugares 
000170487 6531_ $$aestimación de profundidad
000170487 6531_ $$atransporte óptimo 
000170487 6531_ $$ageometría multivista
000170487 691__ $$a8 9 11
000170487 692__ $$aFomentar el crecimiento económico sostenido, inclusivo y sostenible, el empleo pleno y productivo, y el trabajo decente para todos.	 Desarrollar infraestructuras resilientes, promover la industrialización inclusiva y sostenible, y fomentar la innovación.	 Conseguir que las ciudades y los asentamientos humanos sean inclusivos, seguros, resilientes y sostenibles.
000170487 700__ $$aCivera Sancho, Javier $$edir.
000170487 7102_ $$aUniversidad de Zaragoza$$b 
000170487 830__ $$9512
000170487 8560_ $$fcdeurop@unizar.es
000170487 8564_ $$uhttps://zaguan.unizar.es/record/170487/files/TESIS-2026-024.pdf$$zTexto completo (eng)
000170487 909CO $$ooai:zaguan.unizar.es:170487$$pdriver
000170487 909co $$ptesis
000170487 9102_ $$aIngeniería y Arquitectura$$b 
000170487 980__ $$aTESIS