000146706 001__ 146706
000146706 005__ 20241126113442.0
000146706 037__ $$aTAZ-TFG-2023-3332
000146706 041__ $$aspa
000146706 1001_ $$aEnguita Lahoz, Guillermo
000146706 24200 $$aAction detection during the cooking process using machine learning techniques.
000146706 24500 $$aDetección de acciones durante el proceso de cocinado mediante técnicas de aprendizaje automático.
000146706 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2023
000146706 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000146706 520__ $$aLa reciente evolución de las tecnologías de aprendizaje automático ha supuesto un rápido avance en una gran cantidad de campos, desde el procesado de imágenes que nos permite reconocer los objetos presentes en una fotografía, hasta el procesado del lenguaje natural, utilizado para tareas tan diversas como el análisis de sentimiento o la creación de modelos capaces de mantener una conversación. Por otro lado, las técnicas dedicadas al tratamiento de vídeos suelen seguir a una distancia prudente estos avances, marcada por las limitaciones de Hardware, debido a la complejidad añadida por la dimensión temporal, junto al mayor espacio en memoria requerido. Este trabajo se centrará en la tarea de la Detección de Acciones, que nos permite reconocer las acciones presentes en su vídeo, así como determinar cuando empiezan y cuando acaban, siendo una tarea de alta dificultad que requerirá tanto la segmentación temporal como la clasificación. Esta técnica se utilizará como parte de un proyecto de investigación impulsado por BSH y el Graphics and Imaging Lab, que pretende evaluar la integración de las nuevas tecnologías en la cocina. Como caso de estudio utilizaremos un conjunto de datos proporcionado por BSH, en el cual se recogen vídeos del proceso de cocinado, grabados por distintos participantes en sus hogares, utilizando una cámara sujeta al extractor. El proyecto tendrá como objetivo realizar una investigación exhaustiva del estado del arte, eligiendo un modelo de los analizados para su uso con nuestro dataset. Por su similitud a nuestro caso, dicho análisis se centrará en torno al benchmark de Epic Kitchens, compuesto por una serie de grabaciones de cocina obtenidas con perspectiva egocéntrica. Tras la investigación, el elegido fue ActionFormer, basado en la arquitectura Transformer y en el uso de mecanismos de atención. Una vez instalado y verificado su funcionamiento con Epic Kitchens, realizamos la adaptación necesaria de nuestros vídeos y anotaciones para su compatibilidad, proceso que incluyó la extracción de features utilizando el modelo de Reconocimiento de Acciones Slowfast, dicho proceso será detallado más adelante y consiste en la generación de una representación vectorial de los vídeos utilizados como entrada. Después de un análisis en profundidad de los resultados obtenidos, concluimos que nuestro dataset presentaba una serie de problemas, principalmente un desbalance entre las distintas clases, los cuales se intentaron mitigar a través de un proceso de reetiquetado del mismo.<br /><br />
000146706 521__ $$aGraduado en Ingeniería Informática
000146706 540__ $$aDerechos regulados por licencia Creative Commons
000146706 700__ $$aSerrano Pacheu, Ana Belén$$edir.
000146706 700__ $$aGutiérrez Pérez, Diego$$edir.
000146706 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cLenguajes y Sistemas Informáticos
000146706 8560_ $$f801618@unizar.es
000146706 8564_ $$s13491295$$uhttps://zaguan.unizar.es/record/146706/files/TAZ-TFG-2023-3332.pdf$$yMemoria (spa)
000146706 909CO $$ooai:zaguan.unizar.es:146706$$pdriver$$ptrabajos-fin-grado
000146706 950__ $$a
000146706 951__ $$adeposita:2024-11-26
000146706 980__ $$aTAZ$$bTFG$$cEINA
000146706 999__ $$a20230829171342.CREATION_DATE