000129983 001__ 129983
000129983 005__ 20240117131231.0
000129983 037__ $$aTESIS-2024-018
000129983 041__ $$aeng
000129983 1001_ $$aSabater Bailón, Alberto
000129983 24500 $$aEfficient scene understanding from video data
000129983 260__ $$aZaragoza$$bUniversidad de Zaragoza, Prensas de la Universidad$$c2023
000129983 300__ $$a123
000129983 4900_ $$aTesis de la Universidad de Zaragoza$$v2024-18$$x2254-7606
000129983 500__ $$aPresentado:  03 07 2023
000129983 502__ $$aTesis-Univ. Zaragoza,  , 2023$$bZaragoza, Universidad de Zaragoza$$c2023
000129983 506__ $$aby-nc$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc/3.0/es
000129983 520__ $$aLa comprensión visual de escenas es el proceso de extracción de información de alto nivel a partir de datos visuales para obtener un entendimiento más profundo de los elementos y entidades de una escena, así como para razonar sobre su contexto y relaciones. Es un<br />área de investigación esencial dentro de la Inteligencia Artificial y la Visión por Computador y tiene aplicaciones en numerosos campos, como el análisis de imágenes médicas, los vehículos autónomos y la realidad aumentada y virtual. Un caso especial de comprensión visual de escenas es el procesamiento de datos de vídeo, que suele ser necesario en muchos casos. El procesamiento de datos de vídeo, a diferencia de las imágenes, proporciona una representación más completa de la escena, pero a menudo presenta desafíos adicionales.<br />Las redes neuronales y el aprendizaje profundo han desempeñado un papel importante en el procesamiento de datos visuales, logrando un alto rendimiento en muchas tareas. Sin embargo, estos métodos presentan ciertos retos y limitaciones, acentuados al procesar información de vídeo en lugar de imágenes fijas, que dificultan su aplicabilidad para aplicaciones en tiempo real o con recursos limitados. Las redes neuronales profundas tienden a ser complejas y costosas desde el punto de vista computacional, lo que a menudo implica un elevado coste energético y latencia. Además, los algoritmos de aprendizaje profundo suelen requerir una gran cantidad de datos etiquetados que a menudo son difíciles de obtener, y a pueden tener dificultades para generalizar a nuevos dominios de datos. Esta tesis aborda algunos de estos desafíos y propone diferentes soluciones para la comprensión eficiente de escenas basadas en vídeo, dise˜nadas para aprender de conjuntos de datos pequeños y/o ejecutarse con recursos computacionales mínimos. En particular, trabajamos en tareas detección de objetos de vídeo y reconocimiento de acciones, y en el uso de cámaras de eventos:<br />La detección de objetos tiene como objetivo localizar y clasificar diferentes objetos en la escena. Aunque se ha estudiado ampliamente para su aplicación en imágenes fijas, su rendimiento en datos de vídeo es más difícil. Los métodos más avanzados diseñados para procesamiento de vídeo tratan artefactos específicos de vídeo con redes neuronales profundas complejas y costosas desde el punto de vista computacional. De forma diferente, nosotros proponemos un método de post-procesado que localiza posibles inconsistencias temporales en las predicciones de cualquier detector de objetos, y refina eficientemente estas detecciones con información global para ajustarse mejor a los objetos reales.<br />El reconocimiento de acciones analiza el movimiento humano para identificar el tipo de acción o gesto que se está realizando. Aplicaciones reales, como la realidad aumentada o virtual, requieren el reconocimiento de acciones de naturaleza variable, realizadas por diferentes personas, y en entornos heterogéneos. Para ello, proponemos dos métodos diseñados específicamente para el reconocimiento de acciones de cuerpo completo y de sólo manos, basados en el uso de coordenadas de poses, que consiguen estas capacidades de<br />generalización.<br />Aunque las cámaras RGB son los sensores más utilizados para la comprensión visual de escenas, el uso de sensores no RGB puede ser beneficioso para determinados entornos y aplicaciones.<br />En esta tesis, estudiamos el uso de cámaras de eventos debido a sus propiedades específicas en la representación de escenas y eficiencia. Estos sensores capturan sólo cambios de iluminación dispersos, ignorando las partes estáticas redundantes de la escena, y proporcionan una robustez excepcional frente a movimientos rápidos y condiciones de iluminación complicadas. A diferencia de trabajos anteriores, nos beneficiamos eficazmente de las propiedades específicas de los datos de eventos para lograr una eficiencia muy alta<br />y, al mismo tiempo, un alto rendimiento en diferentes tareas de comprensión de escenas.<br />Todo el código, los modelos entrenados y los datos desarrollados en esta tesis son de código abierto para lograr un mayor impacto en la comunidad científica y en las aplicaciones del mundo real.<br />
000129983 520__ $$aVisual scene understanding is the process of extracting high-level information from visual data to gain a deeper understanding of the elements and entities in a scene, as well as to reason about their context and relationships. It is an essential area of research within Artificial Intelligence and Computer Vision and has applications in numerous fields, such as medical image analysis, autonomous robots or vehicles, and augmented and virtual reality. A special case of visual scene understanding is video data processing, which is often required in many real-world use cases. Video data processing, as opposed to still images, provides a more complete representation of the scene, but often presents specific additional challenges. Neural Networks and Deep Learning have played a significant role in the processing of visual data, achieving state-of-the-art performance on many tasks. However, these methods have certain challenges and limitations, accentuated when processing video information instead of still images, which hinder their applicability for real-time or resource-constrained applications. Deep Neural Networks tend to be complex and computationally expensive, which often implies a high energy cost and latency. Moreover, Deep Learning algorithms typically demand a large amount of labeled data that is frequently difficult to obtain, and often struggle to generalize to new data domains. This thesis addresses some of these challenges and proposes different solutions for efficient video-based scene understanding, designed to learn from low-scale datasets and/or run with minimal computational resources. In particular, towards novel efficient scene understanding approaches, we work on improved video object detection and action recognition tasks, and the use of event cameras: Object detection aims to localize and classify different objects in the scene. Although it has been widely studied for its application on still images, its performance on video data is more challenging. State-of-the-art video-based methods overcome specific video artifacts with complex and computationally expensive Deep Neural Networks. Differently, we propose a post-processing method that localizes possible temporal inconsistencies in the predictions of any object detector, and efficiently refines these detections with global information to better match the real objects. Action recognition analyzes the human motion to identify the kind of action or gesture that is being performed. Real applications, like augmented or virtual reality, require the recognition of actions of variable nature, performed by different persons, and in heterogeneous environments. For this purpose, we propose two methods designed specifically for full-body and hand-only action recognition, based on the use of pose skeleton coordinates, that achieve these generalization capabilities. Although RGB cameras are the most common sensors used for visual scene understanding, using non-RGB sensors can be beneficial for certain environments and applications. In this thesis, we study the use of event cameras due to their specific properties in scene representation and efficiency. These sensors capture only sparse illumination changes, ignoring the redundant static parts of the scene, and provide exceptional robustness to fast motions and challenging illumination conditions. Different from prior work, we effectively benefit from specific event data properties to achieve very high efficiency while also having a high performance in different scene understanding tasks. All the code, trained models, and data developed in this thesis have been open-sourced for a broader impact on the scientific community and real-world applications.<br />
000129983 521__ $$97100$$aPrograma de Doctorado en Ingeniería de Sistemas e Informática
000129983 6531_ $$avision artificial
000129983 6531_ $$ainteligencia artificial
000129983 700__ $$aMurillo Arnal,  Ana Cristina$$edir.
000129983 700__ $$aMontesano del Campo, Luis $$edir.
000129983 7102_ $$aUniversidad de Zaragoza$$b 
000129983 830__ $$9512
000129983 8560_ $$fcdeurop@unizar.es
000129983 8564_ $$uhttps://zaguan.unizar.es/record/129983/files/TESIS-2024-018.pdf$$zTexto completo (eng)
000129983 909CO $$ooai:zaguan.unizar.es:129983$$pdriver
000129983 909co $$ptesis
000129983 9102_ $$aIngeniería y Arquitectura$$b 
000129983 980__ $$aTESIS