Dissertation/Thesis Tesis de la Universidad de Zaragoza Casao Martínez, Sara Murillo Arnal, Ana Cristina Montijano Muñoz, Eduardo Scene Understanding with Multi-Camera Systems 2254-7606 2024-338 La comprensión de escena es un problema fundamental en el campo de la visión por computador que tiene como objetivo obtener un conocimiento profundo de los elementos y entidades dentro de una escena. Este proceso implica localizar e identificar los elementos de interés, analizar su evolución temporal y comprender su contexto. Todas estas tareas son capacidades esenciales para muchas aplicaciones de IA como sistemas de vigilancia inteligente, robots autónomos o la automatización de procesos. La gran complejidad de estas aplicaciones a menudo hace que los sistemas de una única cámara no capturen suficiente información para un entendimiento preciso. Por ello, los sistemas tienden a estar compuestos por múltiples cámaras capaces de adquirir información más completa desde diferentes puntos de vista. Los sistemas multi-cámara ofrecen ventajas sobre las configuraciones de monocámaras, incluyendo una mejor cobertura en grandes áreas y el aprovechamiento de datos diversos cuando se combinan cámaras heterogéneas. Sin embargo, la implementación de estos sistemas plantea múltiples desafíos. La gestión de un alto número de cámaras requiere gran potencia de procesamiento y ancho de bancha. Adaptarse a entornos cambiantes o integrar nuevos conocimientos procedentes de varios flujos de datos requiere cuidadosas estrategias de selección de la información así como una gestión de memoria eficiente. Además, la colaboración entre sistemas heterogéneos introduce complejidades en la fusión de datos, su sincronización y su coordinación, lo que exije el desarrollo de sofisticados métodos para garantizar un funcionamiento robusto. De esta forma, equilibrar los beneficios proporcionados por los sitemas multi-cámara con sus desafíos asociados, es crucial para su efectiva implementación en aplicaciones del mundo real. Esta tesis, aborda estos desafíos profundizando en tres tareas cruciales para la comprensión de escenas con múltiples cámaras: El seguimiento multi-objetivo distribuido tiene como finalidad conocer las trayectorias de los elementos dinámicos de la escena con un procesamiento distribuido de la información recopilada. La mayoría de los trabajos centrados en seguimiento multi-objetivo procesan los datos en un único dispositivo, lo que limita la escalabilidad del sistema, o asumen conocimentos previos de los elementos dinámicos. Por el contrario, nuestra propuesta procesa localmente en cada nodo tanto datos visuales como no visuales, sin suposiciones previas. Por lo tanto, la investigación realizada en esta tesis proporciona un enfoque de seguimineto multi-objetivo con múltiples cámaras completamente distribuido ofreciendo una solución flexible que requiere un esfuerzo mínimo en la integración de nuevas cámaras. La re-identificación de personas en entornos abiertos se centrar en encontrar un individuo comparándo su imagen con una galería de personas conocidas. El principal desafío de las configuraciones en entornos abiertos radica en distinguir a las personas nuevas de las ya conocidas por el sistema y, al mismo tiempo, identificar correctamente las personas previamente identificadas a pesar de las variaciones de perspectiva o iluminación. En aplicaciones del mundo real, la re-identificación de personas debe adaptarse de manera eficiente a la evolución temporal del entorno. Para ello, esta tesis presenta un algoritmo que construye una galería auto-adaptable capaz de expandirse dinámicamente identificando nuevas personas y actualizando los datos existentes con las nuevas observaciones de personas adquiridas. La colaboración de sensores heterogéneos combina cámaras RGB estáticas con otro tipo de sensores para mejorar la funcionalidad del sistema y la recopilación de información. Esta tesis explora los beneficios aportados por dos tipos de colaboraciones. En primer lugar, analizamos la asociación de cámaras estáticas y móviles para monitorización, explotando las cámaras móviles para capturar imágenes de mayor calidad y así, mejorar las tareas de percepción. En segundo lugar, estudiamos la combinación de imágenes RGB e hiperespectrales para la identificación de objetos en la clasificación de residuos. Los sensores hiperespectrales capturan una firma espectral del material, lo que mejora la identificación final del objeto. En general, esta tesis contribuye a mejorar la escalabilidad de los métodos de percepción, la capacidad de adaptación de los sistemas de monitorización ante cambios temporales y por último, confirma los beneficios de combinar diferentes tipos de cámaras en la adquisición de conocimientos complementarios. eng inteligencia artificial; informática; Universidad de Zaragoza, Prensas de la Universidad Zaragoza 2024 2024

http://zaguan.unizar.es/record/136463/files/TESIS-2024-345.pdf; Imported from Invenio.