Civera Sancho

Javier

2025

Determinar la ubicación de un agente y saber representar su entorno son dos capacidades esenciales para el correcto funcionamiento de sistemas inteligentes con conocimiento espacial. Estas tareas, conocidas comúnmente como localización y reconstrucción o mapeado, han sido estudiadas durante décadas en la comunidad de visión por computador, ya que muchas aplicaciones, como la realidad aumentada o la robótica, dependen en gran medida de ellas para interactuar de forma coherente en el mundo físico. Uno de los primeros pasos en la localización de un agente es obtener una estimación aproximada de su ubicación, para lo cual el Reconocimiento Visual de Lugares, conocido como VPR por sus siglas en inglés, ofrece una solución eficaz cuando se dispone de una base de datos de imágenes georreferenciadas. Uno de los principales desafíos en VPR consiste en diseñar descriptores que sean compactos, informativos y discriminativos, pero que además se mantengan robustos ante fuertes cambios de punto de vista, variaciones estructurales o de iluminación. En este contexto, la primera parte de esta tesis propone dos direcciones complementarias para avanzar en VPR. En primer lugar, presentamos un método de agregación de características basado en la teoría de transporte óptimo. Además proponemos utilizar una potente arquitectura como red neuronal para obtener descriptores de imagen más robustos. En segundo lugar, proponemos una nueva estrategia de entrenamiento que mejora la sensibilidad geográfica de los descriptores seleccionando ejemplos difíciles basándonos tanto en similitud visual como en distancia espacial. Estas contribuciones suponen un avance hacia sistemas de VPR efectivos, escalables y versátiles, mejorando significativamente los resultados en benchmarks populares como MSLS Challenge o Nordland. Dentro del campo de la reconstrucción o mapeado de escenas, la estimación de profundidad a partir de una sola imagen se suele considerar una de las tareas clave. Si bien es conocido que el uso de múltiples vistas aporta información geométrica que permite resolver ambigüedades y mejorar la precisión, el problema a resolver es cómo diseñar métodos capaces de aprovechar esta información de forma robusta en escenarios diversos y de propósito general. La segunda parte de esta tesis propone dos métodos para aprovechar las información multivista en la estimación de profundidad. Primero, presentamos un método de refinamiento en tiempo de inferencia que utiliza nubes de puntos 3D no densas obtenidas mediante Structure-from-Motion para guiar a las redes de profundidad monocular durante su ejecución, preservando así los conocimientos de la red mientras se incorporan restricciones geométricas adicionales. En segundo lugar, proponemos una arquitectura multivista de propósito general diseñada para operar de forma robusta en entornos variados y con rangos de profundidad diversos. Nuestras contribuciones se centran en la versatilidad: entrenando con múltiples conjuntos de datos, afrontando escenas con poco solapamiento y objetos dinámicos, y eliminando restricciones como el conocimiento previo del rango de profundidades. Conjuntamente, estas contribuciones muestran el potencial de combinar lo aprendido por las redes con restricciones geométricas, dando pasos hacia una integración fluida de la información multivista en la estimación de profundidad. Concretamente, el refinamiento que hemos propuesto ha mejorado todos los métodos de profundidad que probamos y el sistema de profundidad multivista que hemos desarrollado obtiene los mejores resultados actuales en el Robust Multi-View Depth Benchmark.

TESIS