TAZ-TFG-2023-3332


Detección de acciones durante el proceso de cocinado mediante técnicas de aprendizaje automático.

Enguita Lahoz, Guillermo
Serrano Pacheu, Ana Belén (dir.) ; Gutiérrez Pérez, Diego (dir.)

Universidad de Zaragoza, EINA, 2023
Departamento de Informática e Ingeniería de Sistemas, Área de Lenguajes y Sistemas Informáticos

Graduado en Ingeniería Informática

Resumen: La reciente evolución de las tecnologías de aprendizaje automático ha supuesto un rápido avance en una gran cantidad de campos, desde el procesado de imágenes que nos permite reconocer los objetos presentes en una fotografía, hasta el procesado del lenguaje natural, utilizado para tareas tan diversas como el análisis de sentimiento o la creación de modelos capaces de mantener una conversación. Por otro lado, las técnicas dedicadas al tratamiento de vídeos suelen seguir a una distancia prudente estos avances, marcada por las limitaciones de Hardware, debido a la complejidad añadida por la dimensión temporal, junto al mayor espacio en memoria requerido. Este trabajo se centrará en la tarea de la Detección de Acciones, que nos permite reconocer las acciones presentes en su vídeo, así como determinar cuando empiezan y cuando acaban, siendo una tarea de alta dificultad que requerirá tanto la segmentación temporal como la clasificación. Esta técnica se utilizará como parte de un proyecto de investigación impulsado por BSH y el Graphics and Imaging Lab, que pretende evaluar la integración de las nuevas tecnologías en la cocina. Como caso de estudio utilizaremos un conjunto de datos proporcionado por BSH, en el cual se recogen vídeos del proceso de cocinado, grabados por distintos participantes en sus hogares, utilizando una cámara sujeta al extractor. El proyecto tendrá como objetivo realizar una investigación exhaustiva del estado del arte, eligiendo un modelo de los analizados para su uso con nuestro dataset. Por su similitud a nuestro caso, dicho análisis se centrará en torno al benchmark de Epic Kitchens, compuesto por una serie de grabaciones de cocina obtenidas con perspectiva egocéntrica. Tras la investigación, el elegido fue ActionFormer, basado en la arquitectura Transformer y en el uso de mecanismos de atención. Una vez instalado y verificado su funcionamiento con Epic Kitchens, realizamos la adaptación necesaria de nuestros vídeos y anotaciones para su compatibilidad, proceso que incluyó la extracción de features utilizando el modelo de Reconocimiento de Acciones Slowfast, dicho proceso será detallado más adelante y consiste en la generación de una representación vectorial de los vídeos utilizados como entrada. Después de un análisis en profundidad de los resultados obtenidos, concluimos que nuestro dataset presentaba una serie de problemas, principalmente un desbalance entre las distintas clases, los cuales se intentaron mitigar a través de un proceso de reetiquetado del mismo.


Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Trabajos fin de grado



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)