TAZ-TFG-2020-4785

Seguimiento y segmentación de múltiples objetos con descriptores aprendidos

Cay Delgado, Daniel
Bescós Torcarl, Berta (dir.) ; Neira Parra, José (dir.)

Universidad de Zaragoza, EINA, 2020
Departamento de Informática e Ingeniería de Sistemas, Área de Lenguajes y Sistemas Informáticos

Graduado en Ingeniería Informática

Resumen: En este TFG se ha estudiado uno de los problemas a los que se enfrenta la visión por computador en la actualidad, que es el del seguimiento y segmentación de múltiples objetos a lo largo de un vídeo. Dicho problema consiste en identificar de forma única a cada uno de los objetos que aparecen en un vídeo mediante una máscara que se adapta a su forma y contorno a nivel de píxel (instance segmentation).
En los últimos años, los sistemas de seguimiento de objetos han estado estancados debido a que la tecnología de object detection (identificar a cada objeto con una caja delimitadora o bounding box que lo rodea) se había explotado al máximo. En la actualidad, gracias a la aparición de la instance segmentation, la posibilidad de lograr grandes mejoras ha vuelto a aparecer. Es por ello que se ha desarrollado un sistema de seguimiento y segmentación de objetos que parte del uso de técnicas clásicas de visión por computador y de las últimas tecnologías en el ámbito, como es la red neuronal de segmentación semántica Mask R-CNN. Se busca utilizar nuevos métodos con el fin de diferenciar el sistema realizado del resto, aportando así nueva información acerca de este problema. La principal innovación del trabajo se basa en el uso de descriptores aprendidos, información sobre la apariencia de los objetos a seguir que se va a extraer de Mask R-CNN para utilizarla en beneficio de nuestro sistema, logrando así mejoras en su funcionamiento.
En cuanto al desarrollo del trabajo, se ha realizado una primera aproximación al seguimiento usando el solapamiento entre objetos de distintas imágenes. Después, se ha utilizado un algoritmo de predicción con el fin de solucionar algunos problemas que la primera aproximación tiene, y tras esto, se ha incorporado el uso de los descriptores aprendidos extraídos de Mask R-CNN para tener en cuenta la apariencia de los objetos, mejorando así los resultados del sistema. Por último, para evaluar el trabajo desarrollado y compararlo con el estado del arte se han usado las métricas de visión por computador MOTSA, MOTSP y sMOTSA.
Para el beneficio de la comunidad de la visión por computador, el sistema está disponible en https://github.com/DanielCay/TFG y un ejemplo del resultado final logrado se puede ver en https://youtu.be/Xw1aob3RjWw.

+

Tipo de Trabajo Académico: Trabajo Fin de Grado
Notas: Resumen disponible también en inglés.

Enlace permanente:

El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Trabajos fin de grado

Volver a la búsqueda

Memoria (spa)

Valore este documento:

(Sin ninguna reseña)

Añadir a una carpeta personal
Exportar como BibTeX, MARC, MARCXML, DC, EndNote, NLM, RefWorks

Repositorio Institucional de Documentos

+

-