Scene Understanding with Multi-Camera Systems.pdf

Scene Understanding with Multi-Camera Systems

Casao Martínez, Sara
Murillo Arnal, Ana Cristina (dir.) ; Montijano Muñoz, Eduardo (dir.)

Universidad de Zaragoza, 2024

Resumen: La comprensión de escena es un problema fundamental en el campo de la visión por computador que tiene como objetivo obtener un conocimiento profundo de los elementos y entidades dentro de una escena. Este proceso implica localizar e identificar los elementos de interés, analizar su evolución temporal y comprender su contexto. Todas estas tareas son capacidades esenciales para muchas aplicaciones de IA como sistemas de vigilancia inteligente, robots autónomos o la automatización de procesos. La gran complejidad de estas aplicaciones a menudo hace que los sistemas de una única cámara no capturen suficiente información para un entendimiento preciso. Por ello, los sistemas tienden a estar
compuestos por múltiples cámaras capaces de adquirir información más completa desde diferentes puntos de vista.
Los sistemas multi-cámara ofrecen ventajas sobre las configuraciones de monocámaras, incluyendo una mejor cobertura en grandes áreas y el aprovechamiento de datos diversos cuando se combinan cámaras heterogéneas. Sin embargo, la implementación de estos sistemas plantea múltiples desafíos. La gestión de un alto número de cámaras requiere gran potencia de procesamiento y ancho de bancha. Adaptarse a entornos cambiantes o integrar nuevos conocimientos procedentes de varios flujos de datos requiere cuidadosas estrategias de selección de la información así como una gestión de memoria eficiente. Además, la colaboración entre sistemas heterogéneos introduce complejidades en la fusión de datos, su sincronización y su coordinación, lo que exije el desarrollo de sofisticados métodos para garantizar un funcionamiento robusto. De esta forma, equilibrar los beneficios proporcionados por los sitemas multi-cámara con sus desafíos asociados, es crucial para su efectiva implementación en aplicaciones del mundo real. Esta tesis, aborda estos desafíos profundizando en tres tareas cruciales para la comprensión de escenas con múltiples cámaras: El seguimiento multi-objetivo distribuido tiene como finalidad conocer las trayectorias de los elementos dinámicos de la escena con un procesamiento distribuido de la información recopilada. La mayoría de los trabajos centrados en seguimiento multi-objetivo procesan los datos en un único dispositivo, lo que limita la escalabilidad del sistema, o asumen conocimentos previos de los elementos dinámicos. Por el contrario, nuestra propuesta procesa localmente en cada nodo tanto datos visuales como no visuales, sin suposiciones previas. Por lo tanto, la investigación realizada en esta tesis proporciona un enfoque de seguimineto multi-objetivo con múltiples cámaras completamente distribuido ofreciendo una solución flexible que requiere un esfuerzo mínimo en la integración de nuevas cámaras.
La re-identificación de personas en entornos abiertos se centrar en encontrar un individuo comparándo su imagen con una galería de personas conocidas. El principal desafío de las configuraciones en entornos abiertos radica en distinguir a las personas nuevas de las ya conocidas por el sistema y, al mismo tiempo, identificar correctamente las personas previamente identificadas a pesar de las variaciones de perspectiva o iluminación.
En aplicaciones del mundo real, la re-identificación de personas debe adaptarse de manera eficiente a la evolución temporal del entorno. Para ello, esta tesis presenta un algoritmo que construye una galería auto-adaptable capaz de expandirse dinámicamente identificando nuevas personas y actualizando los datos existentes con las nuevas observaciones de personas adquiridas.
La colaboración de sensores heterogéneos combina cámaras RGB estáticas con otro tipo de sensores para mejorar la funcionalidad del sistema y la recopilación de información.
Esta tesis explora los beneficios aportados por dos tipos de colaboraciones. En primer lugar, analizamos la asociación de cámaras estáticas y móviles para monitorización, explotando las cámaras móviles para capturar imágenes de mayor calidad y así, mejorar las tareas de percepción. En segundo lugar, estudiamos la combinación de imágenes RGB e hiperespectrales para la identificación de objetos en la clasificación de residuos. Los sensores hiperespectrales capturan una firma espectral del material, lo que mejora la identificación final del objeto.
En general, esta tesis contribuye a mejorar la escalabilidad de los métodos de percepción, la capacidad de adaptación de los sistemas de monitorización ante cambios temporales y por último, confirma los beneficios de combinar diferentes tipos de cámaras en la adquisición de conocimientos complementarios.

Resumen (otro idioma): Scene understanding is an essential problem in computer vision aiming to gain a deeper knowledge of the elements and entities in a scene. This process involves localizing and identifying the elements of interest, analyzing their temporal evolution, and understanding their context. All of these tasks are essential abilities for many AI applications, like smart surveillance systems, autonomous robots, or process automation. The complexity of these applications often surpasses the ability of single cameras to acquire a comprehensive understanding of the scene, prompting the use of multi-camera setups to capture richer data from multiple viewpoints. Multi-camera systems offer advantages over single-view setups, including enhanced coverage in large areas and leveraging diverse information when using heterogeneous camera sets. However, deploying these systems also poses several challenges. Managing a large number of cameras requires substantial processing power and network bandwidth. Adapting to changing environments or integrating new knowledge online, across multiple data streams, necessitates careful data selection and memory management strategies. Furthermore, collaboration between heterogeneous systems introduces complexities in data fusion, synchronization, and coordination, demanding sophisticated methods to ensure seamless operation. Balancing the benefits of multi-camera systems with their associated challenges is crucial for their effective deployment in real-world applications. This thesis addresses these challenges by delving into three crucial tasks for multi-camera scene understanding: Distributed multi-target tracking aims to understand dynamic element trajectories by processing the collected information in a distributed fashion. Most of the works centered on multi-target tracking, either process the data in a single central device, thereby limiting the scalability of the system, or assume previous knowledge. In contrast, our method processes visual and non-visual data on each node, without prior knowledge assumptions. Therefore, this thesis provides a fully distributed multi-camera multi-target tracking approach that offers a flexible solution requiring minimal effort to integrate new cameras into the system. Open-world person re-identification focuses on matching an observed individual against a gallery of known people. The main challenge lies in distinguishing new people from known ones while still correctly matching previously identified individuals despite variations in perspective or lighting. In real-world applications, person re-identification should efficiently adapt to the temporal evolution of the environment. For this purpose, this thesis presents a novel algorithm for building a self-adaptive gallery able to dynamically expand to identify new individuals and update existing information based on new people's observations. Heterogeneous sensors collaboration combining static RGB cameras with other sensor types, enhance functionality and information gathering. This thesis explores the benefits of two heterogeneous collaborations. First, we analyze the association of static and mobile cameras for monitoring applications, leveraging mobile cameras to capture higher-quality images and improve perception tasks. Second, we explore combining RGB and hyperspectral imaging for object identification in waste material sorting. Hyperspectral sensors capture a spectral signature of the material boosting object identification. Overall, this thesis contributes to enhancing the scalability of perception solutions, improving monitoring system adaptability to environmental changes, and fostering collaboration among different types of cameras for acquiring complementary knowledge.

+

Pal. clave: inteligencia artificial ; informática

Titulación: Programa de Doctorado en Ingeniería de Sistemas e Informática
Plan(es): Plan 512

Área de conocimiento: Ingeniería y Arquitectura
Nota: Presentado: 24 06 2024
Nota: Tesis-Univ. Zaragoza, , 2024

Aportación del TFG/M a la Sostenibilidad: Fomentar el crecimiento económico sostenido, inclusivo y sostenible, el empleo pleno y productivo, y el trabajo decente para todos. Desarrollar infraestructuras resilientes, promover la industrialización inclusiva y sostenible, y fomentar la innovación. Conseguir que las ciudades y los asentamientos humanos sean inclusivos, seguros, resilientes y sostenibles.