TAZ-TFG-2020-2110


Estimación de la escala en ORB-SLAM2 monocular mediante redes convolucionales profundas

Martínez Batlle, Víctor
Tardós Solano, Juan Domingo (dir.)

Universidad de Zaragoza, EINA, 2020
Departamento de Informática e Ingeniería de Sistemas, Área de Ingeniería de Sistemas y Automática

Graduado en Ingeniería Informática

Resumen: La localización y mapeo simultáneos o SLAM consiste en construir un mapa del entorno recorrido por un agente móvil a la vez que el agente es capaz de localizarse a sí mismo dentro del mapa. El sistema ORB-SLAM2 monocular de la Universidad de Zaragoza utiliza la información de una única cámara para cumplir este objetivo. Sin embargo, las técnicas de SLAM visual monocular basadas puramente en geometría presentan limitaciones ya que la escala del entorno no es observable. En consecuencia, ORB-SLAM2 monocular obtiene mapas con una escala desconocida, y sufre de deriva de la escala a lo largo de la trayectoria, lo que da lugar a mapas deformados e inconsistentes.
Por otro lado, resultados recientes demuestran que las redes neuronales convolucionales son capaces de estimar profundidad a partir de una única imagen. La red Monodepth2, al ser entrenada juntamente con secuencias monoculares y estéreo, es capaz de estimar para una imagen monocular, cuál sería la disparidad que obtendría un sistema estéreo virtual. Esa información sintética puede ser usada para obtener la profundidad real de la escena.
El objetivo de este trabajo es integrar en ORB-SLAM2 las predicciones de profundidad proporcionadas en tiempo real por la red Monodepth2, acercándose a las prestaciones de un sistema de SLAM estéreo, a pesar de utilizar una única cámara monocular. Para ello, se ha partido de la red Monodepth2 pre-entrenada en secuencias urbanas del dataset KITTI, y se ha llevado a cabo un análisis en profundidad de su precisión. Esto ha permitido utilizar adecuadamente la disparidad estimada por la red neuronal, seleccionando las predicciones de profundidad de menor incertidumbre, que se integran en ORB-SLAM2 como observaciones estéreo virtuales, mientras que el resto se siguen utilizando como observaciones monoculares.
El sistema se ha evaluado en secuencias de KITTI distintas de las utilizadas en el entrenamiento. Los resultados obtenidos demuestran que se estima la escala real del entorno con un error promedio del 3%, y se obtienen mapas más precisos que los de ORB-SLAM2 monocular, habiendo disminuido la deriva de la escala del 43% al 3%. Esto ha permitido reducir de 17,24 m a 6,70 m el error promedio de las trayectorias construidas por el sistema.


Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Trabajos fin de grado



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)