Deep Spatial Perception: Localization & Reconstruction.pdf

Deep Spatial Perception: Localization & Reconstruction

Izquierdo Barranco, Sergio
Civera Sancho, Javier (dir.)

Universidad de Zaragoza, 2025

Resumen: Determinar la ubicación de un agente y saber representar su entorno son dos capacidades esenciales para el correcto funcionamiento de sistemas inteligentes con conocimiento espacial. Estas tareas, conocidas comúnmente como localización y reconstrucción o mapeado, han sido estudiadas durante décadas en la comunidad de visión por computador, ya que muchas aplicaciones, como la realidad aumentada o la robótica,
dependen en gran medida de ellas para interactuar de forma coherente en el mundo físico.
Uno de los primeros pasos en la localización de un agente es obtener una estimación aproximada de su ubicación, para lo cual el Reconocimiento Visual de Lugares, conocido como VPR por sus siglas en inglés, ofrece una solución eficaz cuando se dispone de una base de datos de imágenes georreferenciadas. Uno de los principales desafíos en VPR consiste en diseñar descriptores que sean compactos, informativos y discriminativos, pero que además se mantengan robustos ante fuertes cambios de punto de vista, variaciones estructurales o de iluminación. En este contexto, la primera parte de esta tesis propone dos direcciones complementarias para avanzar en VPR. En primer lugar, presentamos un método de agregación de características basado en la teoría de transporte óptimo. Además proponemos utilizar una potente
arquitectura como red neuronal para obtener descriptores de imagen más robustos. En segundo lugar, proponemos una nueva estrategia de entrenamiento que mejora la sensibilidad geográfica de los descriptores seleccionando ejemplos difíciles basándonos tanto en similitud visual como en distancia espacial. Estas contribuciones suponen un avance hacia sistemas de VPR efectivos, escalables y versátiles, mejorando
significativamente los resultados en benchmarks populares como MSLS Challenge o Nordland.
Dentro del campo de la reconstrucción o mapeado de escenas, la estimación de profundidad a partir de una sola imagen se suele considerar una de las tareas clave. Si bien es conocido que el uso de múltiples vistas aporta información geométrica que permite resolver ambigüedades y mejorar la precisión, el problema a resolver es cómo diseñar métodos capaces de aprovechar esta información de forma robusta en escenarios
diversos y de propósito general. La segunda parte de esta tesis propone dos métodos para aprovechar las información multivista en la estimación de profundidad. Primero, presentamos un método de refinamiento en tiempo de inferencia que utiliza nubes de puntos 3D no densas obtenidas mediante Structure-from-Motion para guiar a las redes de profundidad monocular durante su ejecución, preservando así los conocimientos de la red mientras se incorporan restricciones geométricas adicionales. En segundo lugar, proponemos una arquitectura multivista de propósito general diseñada para operar de forma robusta en entornos variados y con rangos de profundidad diversos. Nuestras contribuciones se centran en la versatilidad: entrenando con múltiples conjuntos de datos, afrontando escenas con poco solapamiento y objetos dinámicos, y eliminando restricciones como el conocimiento previo del rango de profundidades. Conjuntamente, estas contribuciones muestran el potencial de combinar lo aprendido por las redes con restricciones geométricas, dando pasos hacia una integración fluida de la información multivista en la estimación de profundidad. Concretamente, el refinamiento que hemos propuesto ha mejorado todos los métodos de profundidad que probamos y el sistema de profundidad multivista que hemos desarrollado obtiene los mejores resultados actuales en el
Robust Multi-View Depth Benchmark.

Resumen (otro idioma): Determining the location of an agent and representing its surroundings are two essential capabilities for the successful deployment of intelligent systems with spatial awareness. Commonly referred to as localizatio and reconstruction or mapping, these tasks have been studied for decades in the computer vision community, as many applications—such as augmented reality and robotics—rely heavily on them to operate coherently within the physical world. One of the first steps in localizing an agent is retrieving its coarse location, for which Visual Place Recognition (VPR) provides an effective solution when a database of georeferenced images is available. A key challenge in VPR lies in designing compact, informative, and discriminative descriptors that remain robust under strong viewpoint changes, structural variations, and lighting conditions. In this context, the first part of this thesis proposes two complementary directions to advance VPR. First, we introduce a novel feature aggregation method based on optimal transport, paired with a powerful vision transformer backbone, to produce more robust image descriptors. Second, we propose a new training strategy that enhances the geographic sensitivity of these descriptors by selecting hard training samples based on both visual similarity and spatial distance. Together, these contributions advance towards effective, large-scale, and general VPR pipelines, significantly improving metrics at popular benchmarks, like MSLS Challenge, where we improved recall@1 from 67.4% to 82.7% and Nordland, from 58.4% to 90.7%. Within the broader task of scene reconstruction or mapping, monocular depth estimation is one of the core pieces. While it is well understood how multiple views naturally provide geometric cues to resolve ambiguities and improve accuracy, the enduring question is how to design methods that can robustly exploit this information across diverse scenarios in a general-purpose manner. The second part of this thesis proposes two novel methods for leveraging multi-view constraints for depth estimation. First, we introduce a test-time refinement method that uses sparse 3D points from Structure-from-Motion to guide single-viewdepth networks during inference. This preserves the learned priors of single-viewdepth networks while injecting additional multi-view constraints. Second, we propose a general-purpose multi-view stereo architecture designed to operate robustly across diverse environments and depth scales. Our contributions focus on versatility, training on multiple datasets, addressing low overlap and dynamic objects, and removing restrictions like a priori depth range knowledge. Together, these contributions demonstrate the potential of combining learned priors with geometric constraints, showing promising steps towards a seamless integration of multi-viewinformation in depth estimation. More precisely, our proposed refinement improved all considered single-view depth models, and our general-purpose multi-view stereo system obtained state-of-the-art results on the Robust Multi-View Depth Benchmark.

+

Pal. clave: visión por computador ; reconocimiento visual de lugares ; estimación de profundidad ; transporte óptimo ; geometría multivista

Titulación: Programa de Doctorado en Ingeniería de Sistemas e Informática
Plan(es): Plan 512

Área de conocimiento: Ingeniería y Arquitectura
Nota: Presentado: 06 11 2025
Nota: Tesis-Univ. Zaragoza, , 2025

Aportación del TFG/M a la Sostenibilidad: Fomentar el crecimiento económico sostenido, inclusivo y sostenible, el empleo pleno y productivo, y el trabajo decente para todos. Desarrollar infraestructuras resilientes, promover la industrialización inclusiva y sostenible, y fomentar la innovación. Conseguir que las ciudades y los asentamientos humanos sean inclusivos, seguros, resilientes y sostenibles.