Computational models of visual attention and gaze behavior in virtual reality

Martín Serrano, Daniel
Gutiérrez Pérez, Diego (dir.) ; Masiá Corcoy, Belén (dir.)

Universidad de Zaragoza, 2024


Resumen: La realidad virtual (RV) es un medio emergente que tiene el potencial de desbloquear experiencias sin
precedentes. Desde finales de la década de los 60, esta tecnología ha evolucionado firmemente, hasta
ser hoy en día una puerta a un mundo completamente distinto. La RV ofrece un grado de realismo e
inmersión nunca antes visto, y durante los últimos años hemos presenciado cómo cada vez hay más
experiencias virtuales disponibles. No obstante, para poder aprovechar al máximo el potencial de este
medio tan prometedor, todavía queda mucho por aprender sobre la atención y el comportamiento visual
de las personas cuando consumen RV. Preguntas como ¿¿Qué atrae más la atención a los usuarios?¿ o
¿¿Cuán maleable es el cerebro humano cuando está en el mundo virtual?¿ no tienen una respuesta definitiva
todavía. Por ello, y para poder crear mejores experiencias virtuales, es importante estudiar y construir una
base robusta sobre el comportamiento humano en RV. Esta tesis presenta contribuciones en dos aspectos a
tal respecto: Por un lado, en el estudio y modelado del comportamiento visual humano; y por otro, en el
uso de técnicas de manipulación imperceptibles que mejoren la experiencia virtual.
En la primera parte de esta tesis, nos hemos centrado en desarrollar modelos computacionales del
comportamiento visual humano en entornos virtuales. Primero, y recurriendo al concepto de saliencia,
común en estudios del comportamiento, hemos construido modelos de atención visual en imágenes y
videos 360o (dos formatos ampliamente utilizados para visualizar contenido en RV) capaces de predecir
qué partes de una escena son más propensas a atraer la atención de los usuarios. Por otro lado, hemos
construido otros dos modelos de atención espacio-temporal, uno de ellos capaz de simular miles de usuarios
virtuales por segundo mediante la generación de scanpaths (i.e., trayectorias de la mirada) en imágenes
360o, y otro capaz de predecir distribuciones de trayectorias realistas en imágenes convencionales. Además
hemos explorado la atención visual en entornos 3D, otro formato ampliamente utilizado en RV. Todos
estos modelos nos han permitido profundizar en las particularidades del comportamiento visual humano en
distintos entornos.
A lo largo de la tesis, también hemos trabajado en busca de un mayor entendimiento de la atención
humana en entornos con estímulos procedentes de múltiples sentidos. Primero, hemos realizado un estudio
exhaustivo del estado del arte en el uso de multimodalidad en RV, como es el uso de audio, respuesta táctil,
o propiocepción, así como su papel y beneficios en diferentes disciplinas. Después, hemos capturado y
analizado el conjunto de datos de comportamiento visual en videos 360o con sonido ambisónico hasta la
fecha, encontrando interesantes diferencias en factores como el tipo de contenido mostrado o el género de
los usuarios, entre otros. Finalmente, hemos estudiado cómo realizar diferentes tareas puede influir en el
comportamiento visual de las personas en entornos inmersivos, junto a un particular caso de estudio en
escenarios de conducción.
En la segunda parte de la tesis, hemos buscado mejorar las experiencias virtuales por medio de
manipulaciones imperceptibles. Por un lado, nos hemos centrado en movimientos laterales en RV, y hemos
hallado umbrales para la detección de la manipulación sobre tal movimiento, los cuales hemos aplicado
en tres problemas clave en RV para los cuales todavía no hay solución: Visualización con seis grados
de libertad de contenido capturado con solo tres grados de libertad, reducción de las limitaciones del
espacio físico requerido, y reducción del malestar en RV. Por otro lado, hemos explorado la manipulación
imperceptible de la escena recurriendo al fenómeno de change blindness, o ceguera al cambio, estudiándolo
y obteniendo pautas sobre cómo producirlo o evitarlo para mejorar la experiencia, y cómo las limitaciones
en nuestra capacidad de memoria pueden afectarlo.


Resumen (otro idioma): 

Pal. clave: procesos de percepción ; informática

Titulación: Programa de Doctorado en Ingeniería de Sistemas e Informática
Plan(es): Plan 512

Área de conocimiento: Ingeniería y Arquitectura
Nota: Presentado: 01 03 2024
Nota: Tesis-Univ. Zaragoza, , 2024


-



Creative Commons License



Visitas y descargas



 Registro creado el 2024-06-14, última modificación el 2024-06-14


Texto completo:
Descargar el texto completo
PDF

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)