000100733 001__ 100733
000100733 005__ 20210520140814.0
000100733 037__ $$aTESIS-2021-090
000100733 041__ $$aspa
000100733 1001_ $$aFernández Labrador, Clara
000100733 24500 $$aIndoor Scene Understanding using Non-Conventional Cameras
000100733 260__ $$aZaragoza$$bUniversidad de Zaragoza, Prensas de la Universidad$$c2020
000100733 300__ $$a146
000100733 4900_ $$aTesis de la Universidad de Zaragoza$$v2021-90$$x2254-7606
000100733 500__ $$aPresentado:  03 12 2020
000100733 502__ $$aTesis-Univ. Zaragoza,  , 2020$$bZaragoza, Universidad de Zaragoza$$c2020
000100733 506__ $$aby-nc-nd$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-nd/3.0/es
000100733 520__ $$aLos seres humanos comprendemos los entornos que nos rodean sin esfuerzo y bajo una amplia variedad de condiciones, lo cual es debido principalmente a nuestra percepción visual. Desarrollar algoritmos de Computer Vision que logren una comprensión visual similar es muy deseable, para permitir que las máquinas puedan realizar tareas complejas e interactuar con el mundo real, con el principal objectivo de ayudar y entretener a los seres humanos. <br />En esta tesis, estamos especialmente interesados en los problemas que surgen durante la búsqueda de la comprensión visual de espacios interiores, ya que es dónde los seres humanos pasamos la mayor parte de nuestro tiempo, así como en la búsqueda del sensor más adecuado para logar dicha comprensión. Con respecto a los sensores, en este trabajo proponemos utilizar cámaras no convencionales, en concreto imágenes panorámicas y sensores 3D. Con respecto a la comprensión de interiores, nos centramos en tres aspectos clave: estimación del diseño 3D de la escena (distribución de paredes, techo y suelo); detección, localización y segmentación de objetos; y modelado de objetos por categoría, para los que se proporcionan soluciones novedosas y eficientes. El enfoque de la tesis se centra en los siguientes desafíos subyacentes. <br />En primer lugar, investigamos métodos de reconstrucción 3D de habitaciones a partir de una única imagen de 360, utilizado para lograr el nivel más alto de modelado y comprensión de la escena. Para ello combinamos ideas tradicionales, como la asunción del mundo Manhattan por la cual la escena se puede definir en base a tres direcciones principales ortogonales entre si, con técnicas de aprendizaje profundo, que nos permiten estimar probabilidades en la imagen a nivel de pixel para detectar los elementos estructurales de la habitación. Los modelos propuestos nos permiten estimar correctamente incluso partes de la habitación no visibles en la imágen, logrando reconstrucciones fieles a la realidad y generalizando por tanto a modelos de escena más complejos. Al mismo tiempo, se proponen nuevos métodos para trabajar con imágenes panorámicas, destacando la propuesta de una convolución especial que deforma el kernel para compensar las distorsiones de la proyección equirrectangular propia de dichas imágenes.<br />En segundo lugar, considerando la importancia del contexto para la comprensión de la escena, estudiamos el problema de la localización y segmentación de objetos, adaptando el problema para aprovechar todo el potencial de las imágenes de $360^\circ$. También aprovechamos la interacción escena-objetos para elevar las detecciones 2D en la imagen de los objetos al modelo 3D de la habitación.<br />La última línea de trabajo de esta tesis se centra en el análisis de la forma de los objetos directamente en 3D, trabajando con nubes de puntos. Para ello proponemos utilizar un modelado explícito de la deformación de los objetos e incluir una noción de la simetría de estos para aprender, de manera no supervisada, puntos clave de la geometría de los objetos que sean representativos de los mismos. Dichos puntos estan en correspondencia, tanto geométrica como semántica, entre todos los objetos de una misma categoría.<br />Nuestros modelos avanzan el estado del arte en las tareas antes mencionadas, siendo evaluados cada uno de ellos en varios datasets y en los benchmarks correspondientes.<br />
000100733 520__ $$a<br />
000100733 521__ $$97100$$aPrograma de Doctorado en Ingeniería de Sistemas e Informática
000100733 6531_ $$avision artificial
000100733 700__ $$aGuerrero Campo,  José Jesús$$edir.
000100733 700__ $$aDemonceaux, Cédric$$edir.
000100733 7102_ $$aUniversidad de Zaragoza$$b 
000100733 830__ $$9512
000100733 8560_ $$ftdr@unizar.es
000100733 8564_ $$s3168986$$uhttps://zaguan.unizar.es/record/100733/files/TESIS-2021-090.pdf$$zTexto completo (spa)
000100733 909CO $$ooai:zaguan.unizar.es:100733$$pdriver
000100733 909co $$ptesis
000100733 9102_ $$a$$b 
000100733 980__ $$aTESIS