TAZ-PFC-2014-449

Segmentación temporal y reconocimiento débilmente supervisado de acciones en vídeos

Belled Casabona, Alberto
Civera Sancho, Javier (dir.)

Universidad de Zaragoza, EINA, 2014
Informática e Ingeniería de Sistemas department, Ingeniería de Sistemas y Automática area

Ingeniero Industrial

Abstract: El reconocimiento de acciones en vídeos es, sin duda, uno de los problemas de visión por computador más relevantes en la actualidad. Uno de los principales motivos de que ésto sea así son las numerosas aplicaciones derivadas que podrían ser desarrolladas en diversos ámbitos de la ciencia y la vida cotidiana y el entretenimiento. Si además de reconocer las acciones presentes en los vídeos somos capaces de segmentarlas temporalmente, ésto es, determinar los instantes en que empiezan y acaban, su identificación es mucho más completa. No sólo sabríamos que en el vídeo en cuestión aparece una determinada acción, sino que dispondríamos de información adicional para analizarla con más detalle. En este proyecto se formula el problema de la segmentación temporal y el reconocimiento de acciones en vídeos mediante una función de coste, o función de energía, definida de forma débilmente supervisada. A diferencia de los métodos existentes, los cuales emplean un número enorme de vídeos anotados para entrenar los algoritmos, en este proyecto se ha utilizado un único vídeo anotado por cada acción que se pretende reconocer. Con ello conseguimos que la fase de aprendizaje del algoritmo sea menos costosa en esfuerzo humano y que el método sea aplicable a casi cualquier dataset de vídeos. La energía formulada se compone de una serie de términos y parámetros que han sido ajustados mediante la experimentación. Se ha utilizado para ello un dataset de videos realistas extraídos de películas, construído a partir del dataset Hollywood2. La minimización de la energía proporciona la solución de menor coste del problema, es decir, la solución óptima. La bondad de los resultados de minimización se ha evaluado mediante la comparación con un ground truth creado a partir de los vídeos de estudio. Los resultados obtenidos en nuestro dataset y en el dataset KTH demuestran que es posible obtener buenas tasas de acierto en segmentación temporal y reconocimiento de acciones en vídeos de forma débilmente supervisada.

Universidad de Zaragoza Repository

+

-