000014702 001__ 14702
000014702 005__ 20150325205459.0
000014702 037__ $$aTAZ-PFC-2014-304
000014702 041__ $$aspa
000014702 1001_ $$aBello Gimeno, Carlos
000014702 24500 $$aReconocimiento de acciones en vídeos de cámaras vestibles
000014702 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2014
000014702 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000014702 500__ $$aCámaras vestibles Reconocimiento de acciones en vídeos
000014702 520__ $$aEl reconocimiento de acciones es el problema consistente en clasificar de manera automática secuencias de imágenes en función de las acciones (beber, caminar, abrir ventana, leer, etc.) que contengan. La mayor parte del trabajo previo se ha realizado en vídeos tomados por terceras personas, provenientes de películas o de repositorios como YouTube. La contribución de este proyecto es el uso de secuencias de vídeo de cámaras vestibles. El interés por dichas cámaras es creciente debido a la aparición de diversos modelos comerciales (Google Glass, GoPro o Memoto). Todo proceso de clasificación tiene dos etapas básicas: entrenamiento y test. En ambas etapas cada vídeo se codifica mediante una serie de descriptores. En la etapa de entrenamiento se calcula el clasificador a partir de vídeos de entrenamiento, de los cuales conocemos la categoría. En la etapa de test el clasificador asigna a cada vídeo de test, de los cuales se desconoce la acción que contiene, una categoría en función de sus descriptores. El descriptor utilizado en este proyecto es el denominado bolsa de palabras. Dicho descriptor se calcula a partir de los puntos de interés espacio temporales (STIP). La bolsa de descriptores se construye mediante un proceso de clustering; el cual trata de agrupar los descriptores en grupos o clusters según su semejanza empleando una determinada distancia. En el proyecto se evalúa la influencia en los resultados del número de palabras y del número y valores de los descriptores elegidos para la construcción del vocabulario, así como de la distancia elegida. Para la clasificación de la acción realizada en el vídeo se utiliza un algoritmo de entrenamiento supervisado como es Support Vector Machine (SVM). Se estudian los resultados obtenidos en función del mayor o menor ajuste a la hora de trazar las fronteras entre las diferentes categorías de acciones. Dichos resultados son medidos por la precisión media de reconocimiento. El proyecto cuenta con un dataset propio de acciones grabadas con cámaras vestibles. Está formado por veinte acciones desarrolladas en dos escenarios diferentes (edificio Ada Byron y edificio I3A) por cinco usuarios diferentes. Los vídeos consisten en una secuencia de varias acciones consecutivas y han debido de ser manualmente etiquetados para su utilización. Cada vídeo ha sido grabado por cuatro cámaras vestibles diferentes: una cámara GoPro, un teléfono móvil, una cámara omnidireccional y una cámara de profundidad. El objetivo es identificar cuál de estos tipos de cámaras proporciona unos mejores resultados en la identificación de acciones en cámaras vestibles
000014702 521__ $$aIngeniero Químico
000014702 540__ $$aDerechos regulados por licencia Creative Commons
000014702 700__ $$aCivera Sancho, Javier$$edir.
000014702 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cIngeniería de Sistemas y Automática
000014702 8560_ $$f589262@celes.unizar.es
000014702 8564_ $$s13052783$$uhttps://zaguan.unizar.es/record/14702/files/TAZ-PFC-2014-304.pdf$$yMemoria (spa)
000014702 8564_ $$s223217$$uhttps://zaguan.unizar.es/record/14702/files/TAZ-PFC-2014-304_ANE.pdf$$yAnexos (spa)
000014702 909CO $$ooai:zaguan.unizar.es:14702$$pproyectos-fin-carrera$$pdriver
000014702 950__ $$a
000014702 980__ $$aTAZ$$bPFC$$cEINA