TAZ-TFG-2022-2267

Predicción de saliencia en videos 360º mediante aprendizaje profundo.

Vallejo Domínguez, Mateo
Bernal Berdún, Edurne (dir.) ; Gutiérrez Pérez, Diego (dir.)

Universidad de Zaragoza, EINA, 2022
Informática e Ingeniería de Sistemas department, Lenguajes y Sistemas Informáticos area

Graduado en Ingeniería Informática

Abstract: El desarrollo de tecnologías de realidad virtual está introduciendo múltiples avances en un gran número de industrias, como en el entretenimiento, la formación profesional y la medicina. Sin embargo, cómo diseñar y mostrar experiencias de forma atractiva, inmersiva, y cómoda para el usuario sigue siendo uno de los principales retos asociados a la realidad virtual, por lo que existe una necesidad de estudiar cómo los usuarios perciben y exploran estos entornos virtuales. Para modelar el comportamiento visual de los usuarios, tradicionalmente se ha recurrido al estudio y análisis de las regiones que tienden a llamar la atención de los usuarios, denominadas regiones salientes. El campo de investigación de predicción de saliencia se encarga de estudiar y predecir la atención del sistema visual humano modelando las probabilidades de recibir fijaciones oculares según los estímulos visuales recibidos. A la hora de tratar de predecir la saliencia de contenido de realidad virtual, los modelos de predicción de saliencia para pantallas tradiciones no se adaptan correctamente a visores de realidad virtual, ya que los usuarios solo ven una región limitada del contenido total y pueden decidir mirar en direcciones concretas. De manera similar, los modelos de predicción de saliencia para imágenes estáticas no se adaptan correctamente a vídeos, ya que información contenida en fotogramas previos podría afectar a la saliencia de fotogramas posteriores, como ocurre en el seguimiento de objetos en movimiento. Es por ello que para la tarea de predicción de saliencia en vídeos inmersivos 360º es necesario desarrollar modelos específicos adaptados a las condiciones de visualización de éstos.
A lo largo del desarrollo del proyecto se ha implementado un modelo de red neuronal basado en técnicas actuales de aprendizaje profundo para abordar la tarea de predicción de saliencia en vídeos 360º, prestando especial atención a la dimensión temporal de los vídeos, que parece tener un papel fundamental en la atención visual humana. Comparando el modelo desarrollado con modelos actuales del estado del arte, se han obtenido resultados mejores en todas las métricas empleadas, a la vez que mostrando un comportamiento similar al que se puede ver en observadores reales, lo cual refleja la habilidad del modelo propuesto para imitar el comportamiento visual humano.

Universidad de Zaragoza Repository

+

-