000096573 001__ 96573
000096573 005__ 20201120151211.0
000096573 037__ $$aTAZ-TFG-2020-2110
000096573 041__ $$aspa
000096573 1001_ $$aMartínez Batlle, Víctor
000096573 24200 $$aScale estimation in monocular ORB-SLAM2 using deep convolutional networks
000096573 24500 $$aEstimación de la escala en ORB-SLAM2 monocular mediante redes convolucionales profundas
000096573 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2020
000096573 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000096573 520__ $$aLa localización y mapeo simultáneos o SLAM consiste en construir un mapa del entorno recorrido por un agente móvil a la vez que el agente es capaz de localizarse a sí mismo dentro del mapa. El sistema ORB-SLAM2 monocular de la Universidad de Zaragoza utiliza la información de una única cámara para cumplir este objetivo. Sin embargo, las técnicas de SLAM visual monocular basadas puramente en geometría presentan limitaciones ya que la escala del entorno no es observable. En consecuencia, ORB-SLAM2 monocular obtiene mapas con una escala desconocida, y sufre de deriva de la escala a lo largo de la trayectoria, lo que da lugar a mapas deformados e inconsistentes.<br />Por otro lado, resultados recientes demuestran que las redes neuronales convolucionales son capaces de estimar profundidad a partir de una única imagen. La red Monodepth2, al ser entrenada juntamente con secuencias monoculares y estéreo, es capaz de estimar para una imagen monocular, cuál sería la disparidad que obtendría un sistema estéreo virtual. Esa información sintética puede ser usada para obtener la profundidad real de la escena.<br />El objetivo de este trabajo es integrar en ORB-SLAM2 las predicciones de profundidad proporcionadas en tiempo real por la red Monodepth2, acercándose a las prestaciones de un sistema de SLAM estéreo, a pesar de utilizar una única cámara monocular. Para ello, se ha partido de la red Monodepth2 pre-entrenada en secuencias urbanas del dataset KITTI, y se ha llevado a cabo un análisis en profundidad de su precisión. Esto ha permitido utilizar adecuadamente la disparidad estimada por la red neuronal, seleccionando las predicciones de profundidad de menor incertidumbre, que se integran en ORB-SLAM2 como observaciones estéreo virtuales, mientras que el resto se siguen utilizando como observaciones monoculares.<br />El sistema se ha evaluado en secuencias de KITTI distintas de las utilizadas en el entrenamiento. Los resultados obtenidos demuestran que se estima la escala real del entorno con un error promedio del 3%, y se obtienen mapas más precisos que los de ORB-SLAM2 monocular, habiendo disminuido la deriva de la escala del 43% al 3%. Esto ha permitido reducir de 17,24 m a 6,70 m el error promedio de las trayectorias construidas por el sistema.<br /><br />
000096573 521__ $$aGraduado en Ingeniería Informática
000096573 540__ $$aDerechos regulados por licencia Creative Commons
000096573 700__ $$aTardós Solano, Juan Domingo$$edir.
000096573 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cIngeniería de Sistemas y Automática
000096573 8560_ $$f736478@unizar.es
000096573 8564_ $$s10180239$$uhttps://zaguan.unizar.es/record/96573/files/TAZ-TFG-2020-2110.pdf$$yMemoria (spa)
000096573 909CO $$ooai:zaguan.unizar.es:96573$$pdriver$$ptrabajos-fin-grado
000096573 950__ $$a
000096573 951__ $$adeposita:2020-11-20
000096573 980__ $$aTAZ$$bTFG$$cEINA
000096573 999__ $$a20200625210014.CREATION_DATE