Resumen: La comprensión visual de escenas es el proceso de extracción de información de alto nivel a partir de datos visuales para obtener un entendimiento más profundo de los elementos y entidades de una escena, así como para razonar sobre su contexto y relaciones. Es un área de investigación esencial dentro de la Inteligencia Artificial y la Visión por Computador y tiene aplicaciones en numerosos campos, como el análisis de imágenes médicas, los vehículos autónomos y la realidad aumentada y virtual. Un caso especial de comprensión visual de escenas es el procesamiento de datos de vídeo, que suele ser necesario en muchos casos. El procesamiento de datos de vídeo, a diferencia de las imágenes, proporciona una representación más completa de la escena, pero a menudo presenta desafíos adicionales. Las redes neuronales y el aprendizaje profundo han desempeñado un papel importante en el procesamiento de datos visuales, logrando un alto rendimiento en muchas tareas. Sin embargo, estos métodos presentan ciertos retos y limitaciones, acentuados al procesar información de vídeo en lugar de imágenes fijas, que dificultan su aplicabilidad para aplicaciones en tiempo real o con recursos limitados. Las redes neuronales profundas tienden a ser complejas y costosas desde el punto de vista computacional, lo que a menudo implica un elevado coste energético y latencia. Además, los algoritmos de aprendizaje profundo suelen requerir una gran cantidad de datos etiquetados que a menudo son difíciles de obtener, y a pueden tener dificultades para generalizar a nuevos dominios de datos. Esta tesis aborda algunos de estos desafíos y propone diferentes soluciones para la comprensión eficiente de escenas basadas en vídeo, dise˜nadas para aprender de conjuntos de datos pequeños y/o ejecutarse con recursos computacionales mínimos. En particular, trabajamos en tareas detección de objetos de vídeo y reconocimiento de acciones, y en el uso de cámaras de eventos: La detección de objetos tiene como objetivo localizar y clasificar diferentes objetos en la escena. Aunque se ha estudiado ampliamente para su aplicación en imágenes fijas, su rendimiento en datos de vídeo es más difícil. Los métodos más avanzados diseñados para procesamiento de vídeo tratan artefactos específicos de vídeo con redes neuronales profundas complejas y costosas desde el punto de vista computacional. De forma diferente, nosotros proponemos un método de post-procesado que localiza posibles inconsistencias temporales en las predicciones de cualquier detector de objetos, y refina eficientemente estas detecciones con información global para ajustarse mejor a los objetos reales. El reconocimiento de acciones analiza el movimiento humano para identificar el tipo de acción o gesto que se está realizando. Aplicaciones reales, como la realidad aumentada o virtual, requieren el reconocimiento de acciones de naturaleza variable, realizadas por diferentes personas, y en entornos heterogéneos. Para ello, proponemos dos métodos diseñados específicamente para el reconocimiento de acciones de cuerpo completo y de sólo manos, basados en el uso de coordenadas de poses, que consiguen estas capacidades de generalización. Aunque las cámaras RGB son los sensores más utilizados para la comprensión visual de escenas, el uso de sensores no RGB puede ser beneficioso para determinados entornos y aplicaciones. En esta tesis, estudiamos el uso de cámaras de eventos debido a sus propiedades específicas en la representación de escenas y eficiencia. Estos sensores capturan sólo cambios de iluminación dispersos, ignorando las partes estáticas redundantes de la escena, y proporcionan una robustez excepcional frente a movimientos rápidos y condiciones de iluminación complicadas. A diferencia de trabajos anteriores, nos beneficiamos eficazmente de las propiedades específicas de los datos de eventos para lograr una eficiencia muy alta y, al mismo tiempo, un alto rendimiento en diferentes tareas de comprensión de escenas. Todo el código, los modelos entrenados y los datos desarrollados en esta tesis son de código abierto para lograr un mayor impacto en la comunidad científica y en las aplicaciones del mundo real.
Resumen (otro idioma): Visual scene understanding is the process of extracting high-level information from visual data to gain a deeper understanding of the elements and entities in a scene, as well as to reason about their context and relationships. It is an essential area of research within Artificial Intelligence and Computer Vision and has applications in numerous fields, such as medical image analysis, autonomous robots or vehicles, and augmented and virtual reality. A special case of visual scene understanding is video data processing, which is often required in many real-world use cases. Video data processing, as opposed to still images, provides a more complete representation of the scene, but often presents specific additional challenges. Neural Networks and Deep Learning have played a significant role in the processing of visual data, achieving state-of-the-art performance on many tasks. However, these methods have certain challenges and limitations, accentuated when processing video information instead of still images, which hinder their applicability for real-time or resource-constrained applications. Deep Neural Networks tend to be complex and computationally expensive, which often implies a high energy cost and latency. Moreover, Deep Learning algorithms typically demand a large amount of labeled data that is frequently difficult to obtain, and often struggle to generalize to new data domains. This thesis addresses some of these challenges and proposes different solutions for efficient video-based scene understanding, designed to learn from low-scale datasets and/or run with minimal computational resources. In particular, towards novel efficient scene understanding approaches, we work on improved video object detection and action recognition tasks, and the use of event cameras: Object detection aims to localize and classify different objects in the scene. Although it has been widely studied for its application on still images, its performance on video data is more challenging. State-of-the-art video-based methods overcome specific video artifacts with complex and computationally expensive Deep Neural Networks. Differently, we propose a post-processing method that localizes possible temporal inconsistencies in the predictions of any object detector, and efficiently refines these detections with global information to better match the real objects. Action recognition analyzes the human motion to identify the kind of action or gesture that is being performed. Real applications, like augmented or virtual reality, require the recognition of actions of variable nature, performed by different persons, and in heterogeneous environments. For this purpose, we propose two methods designed specifically for full-body and hand-only action recognition, based on the use of pose skeleton coordinates, that achieve these generalization capabilities. Although RGB cameras are the most common sensors used for visual scene understanding, using non-RGB sensors can be beneficial for certain environments and applications. In this thesis, we study the use of event cameras due to their specific properties in scene representation and efficiency. These sensors capture only sparse illumination changes, ignoring the redundant static parts of the scene, and provide exceptional robustness to fast motions and challenging illumination conditions. Different from prior work, we effectively benefit from specific event data properties to achieve very high efficiency while also having a high performance in different scene understanding tasks. All the code, trained models, and data developed in this thesis have been open-sourced for a broader impact on the scientific community and real-world applications.