000100732 001__ 100732
000100732 005__ 20210520140814.0
000100732 037__ $$aTESIS-2021-089
000100732 041__ $$aeng
000100732 080__ $$a004
000100732 1001_ $$aFácil Ledesma, José María
000100732 24500 $$aDeep Learning for 3D Visual Perception
000100732 260__ $$aZaragoza$$bUniversidad de Zaragoza, Prensas de la Universidad$$c2021
000100732 300__ $$a184
000100732 4900_ $$aTesis de la Universidad de Zaragoza$$v2021-89$$x2254-7606
000100732 500__ $$aPresentado:  15 01 2021
000100732 502__ $$aTesis-Univ. Zaragoza,  , 2021$$bZaragoza, Universidad de Zaragoza$$c2021
000100732 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/es
000100732 520__ $$aLa percepción visual 3D  se refiere al conjunto de problemas que engloban la reunión de información a través de un sensor visual y la estimación la posición tridimensional y estructura de los objetos y formaciones al rededor del sensor. Algunas funcionalidades como la estimación de la ego moción o construcción de mapas are esenciales para otras tareas de más alto nivel como conducción autónoma o realidad aumentada. En esta tesis se han atacado varios desafíos en la percepción 3D, todos ellos útiles desde la perspectiva de SLAM (Localización y Mapeo Simultáneos) que en si es un problema de percepción 3D.<br />Localización y Mapeo Simultáneos –SLAM– busca realizar el seguimiento de la posición de un dispositivo (por ejemplo de un robot, un teléfono o unas gafas de realidad virtual) con respecto al mapa que está construyendo simultáneamente mientras la plataforma explora el entorno. SLAM es una tecnología muy relevante en distintas aplicaciones como realidad virtual, realidad aumentada o conducción autónoma. SLAM Visual es el termino utilizado para referirse al problema de SLAM resuelto utilizando unicamente sensores visuales. Muchas de las piezas del sistema ideal de SLAM son, hoy en día, bien conocidas, maduras y en muchos casos presentes en aplicaciones. Sin embargo, hay otras piezas que todavía presentan desafíos de investigación significantes. En particular, en los que hemos trabajado en esta tesis son la estimación de la estructura 3D al rededor de una cámara a partir de una sola imagen, reconocimiento de lugares ya visitados bajo cambios de apariencia drásticos, reconstrucción de alto nivel o SLAM en entornos dinámicos; todos ellos utilizando redes neuronales profundas.<br />Estimación de profundidad monocular is la tarea de percibir la distancia a la cámara de cada uno de los pixeles en la imagen, utilizando solo la información que obtenemos de una única imagen. Este es un problema mal condicionado, y por lo tanto es muy difícil de inferir la profundidad exacta de los puntos en una sola imagen. Requiere conocimiento de lo que se ve y del sensor que utilizamos. Por ejemplo, si podemos saber que un modelo de coche tiene cierta altura y también sabemos el tipo de cámara que hemos utilizado (distancia focal, tamaño de pixel...); podemos decir que si ese coche tiene cierta altura en la imagen, por ejemplo 50 pixeles, esta a cierta distancia de la cámara. Para ello nosotros presentamos el primer trabajo capaz de estimar profundidad a partir de una sola vista que es capaz de obtener un funcionamiento razonable con múltiples tipos de cámara; como un teléfono o una cámara de video.<br />También presentamos como estimar, utilizando una sola imagen, la estructura de una habitación o el plan de la habitación. Para este segundo trabajo, aprovechamos imágenes esféricas tomadas por una cámara panorámica utilizando una representación equirectangular. Utilizando estas imágenes recuperamos el plan de la habitación, nuestro objetivo es reconocer las pistas en la imagen que definen la estructura de una habitación. Nos centramos en recuperar la versión más simple, que son las lineas que separan suelo, paredes y techo.<br />Localización y mapeo a largo plazo requiere dar solución a los cambios de apariencia en el entorno; el efecto que puede tener en una imagen tomarla en invierno o verano puede ser muy grande. Introducimos un modelo multivista invariante a cambios de apariencia  que resuelve el problema de reconocimiento de lugares de forma robusta. El reconocimiento de lugares visual trata de identificar un lugar que ya hemos visitado asociando pistas visuales que se ven en las imágenes; la tomada en el pasado y la tomada en el presente. Lo preferible es ser invariante a cambios en punto de vista, iluminación, objetos dinámicos y cambios de apariencia a largo plazo como el día y la noche, las estaciones o el clima.<br />Para tener funcionalidad a largo plazo también presentamos DynaSLAM, un sistema de SLAM que distingue las partes estáticas y dinámicas de la escena. Se asegura de estimar su posición unicamente basándose en las partes estáticas y solo reconstruye el mapa de las partes estáticas. De forma que si visitamos una escena de nuevo, nuestro mapa no se ve afectado por la presencia de nuevos objetos dinámicos o la desaparición de los anteriores.<br />En resumen, en esta tesis contribuimos a diferentes problemas de percepción 3D; todos ellos resuelven problemas del SLAM Visual.<br />
000100732 520__ $$a<br />
000100732 521__ $$97100$$aPrograma de Doctorado en Ingeniería de Sistemas e Informática
000100732 6531_ $$aciencia de los ordenadores
000100732 6531_ $$ainteligencia artificial
000100732 6531_ $$avision artificial
000100732 6531_ $$arobotica
000100732 700__ $$aCivera Sancho, Javier$$edir.
000100732 700__ $$aMontesano del Campo, Luis $$edir.
000100732 7102_ $$aUniversidad de Zaragoza$$b 
000100732 830__ $$9512
000100732 8560_ $$ftdr@unizar.es
000100732 8564_ $$s9770364$$uhttps://zaguan.unizar.es/record/100732/files/TESIS-2021-089.pdf$$zTexto completo (eng)
000100732 909CO $$ooai:zaguan.unizar.es:100732$$pdriver
000100732 909co $$ptesis
000100732 9102_ $$a$$b 
000100732 980__ $$aTESIS
Repositorio Institucional de Documentos