Computational imaging.pdf

Computational imaging: Combining optics, computation and perception

Masiá Corcoy, Belén
Gutiérrez Pérez, Diego (dir.)

Universidad de Zaragoza, 2003

Resumen: Esta tesis presenta contribuciones en distintas partes del pipeline de imagen, desde la captura de imágenes, hasta la presentación de las mismas en un monitor u otro dispositivo, pasando por el procesamiento que se produce en los pasos intermedios. Englobamos las distintas técnicas y algoritmos utilizados en las diferentes etapas bajo el concepto de Imagen Computacional (Computational Imaging en inglés). Los temas son diversos, pero el motor e hilo conductor ha sido la idea de que una combinación de óptica avanzada, computación y procesamiento de señal, y conocimiento del funcionamiento de la percepción y el sistema visual humano son necesarias y conducirán a mejoras significativas en cómo capturamos y mostramos el mundo. Las primeras cámaras fotográficas comerciales datan de 1839. Hoy en día, tras más de 150 años, y con la aparición de la fotografía digital, el concepto de cámara fotográfica es muy similar al de esas primeras cámaras. Incluso más sorprendente es el hecho de que las cámaras digitales, con su poder de procesamiento y su potencial, han intentado desde su aparición imitar a sus equivalentes analógicos. Por supuesto, sí hay una notable cantidad de procesamiento de la imagen que se hace en la propia cámara digital (conversión A/D, demosaicing, eliminación de ruido, codificación en un espacio de color, balance de blancos, codificación gamma, etc.) pero todavía, la idea de formar una imagen de la escena mediante rayos de luz convergiendo a través de una lente e impactando en un material fotosensible no ha cambiado. El campo de la fotografía computacional emerge tratando de cambiar esto. La luz que viaja a través de una escena se puede ver como una función multidimensional denominada función plenóptica [Adelson and Bergen 1991]; una fotografía convencional muestrea sólo dos dimensiones de dicha función, integrando sobre un rango de las otras dimensiones. Así, una gran cantidad de información de la escena se pierde cuando tomamos una fotografía. La fotografía computacional, combinando óptica, hardware especializado, y computación, parte de la idea de que eso no tiene por qué ser así: se puede codificar la información que llega al sensor, de forma que podamos muestrear otras dimensiones de esa función plenóptica, y luego a posteriori decodificarla para obtener la imagen de la escena con, por ejemplo, un rango de luminancias mayor, información de profundidad, o con elevado detalle a pesar del movimiento de la escena. El tercer pilar de esta tesis es la percepción, el funcionamiento del sistema visual humano. Argumentamos y mostramos que conocer el sistema visual humano y explotar sus características ayuda a superar las limitaciones del hardware y los algoritmos existentes, y puede contribuir a mejorar la experiencia del espectador o usuario. Esta combinación de óptica, computación y percepción también puede dar y ha dado sus frutos en el campo de los displays (monitores, dispositivos de visualización), a los que se dedica la segunda parte de esta tesis. Los displays son limitados en cuanto a su capacidad de representar el mundo real, y conocer cómo procesa nuestro sistema visual la información puede ayudar a superar limitaciones existentes. Esta idea no es nueva, pero todavía hay un gran número de problemas sin resolver que se pueden beneficiar de esta manera de abordarlos, de este enfoque multidisciplinar. A lo largo de esta tesis hemos ahondado en esta idea, proponiendo soluciones a un número de problemas existentes en el pipeline de imagen. A continuación se exponen las contribuciones concretas de esta tesis, dividida en cuatro partes. Esta división no debe entenderse como una división ¿dura¿, la inherente interrelación entre etapas del pipeline hace que algunas de las contribuciones se puedan incluir en más de una categoría. Parte I: Captura y Procesamiento - Para el problema de corrección de desenfoque (es decir, obtención de una imagen nítida a partir de una imagen desenfocada en la captura), proponemos un método de obtención de aperturas codificadas basado en métricas perceptuales [6, 10, 11]. - Para el problema de reproducción de tono inversa (es decir, expansión del rango dinámico de una imagen convencional para mostrarla en un display de alto rango dinámico). Realizamos en primer lugar un estudio de los algoritmos existentes que nos permitió identificar una limitación de los mismos, común a todos ellos. Proponemos una solución alternativa que, para dicha limitación, funciona mejor que los operadores existentes [7, 14]. Adicionalmente, proponemos también un método semi-automático para expansión de rango con intervención de usuario basado en consideraciones artísticas [12]. Parte II: Displays (dispositivos de visualización) - Realizamos un estado del arte de displays computacionales, en el que categorizamos los displays existentes a lo largo de las dimensiones de la función plenóptica; para cada una de dichas dimensiones presentamos las nociones generales de los aspectos perceptuales relacionados, y los avances en términos de generación de contenido y de tecnología hardware [5]. - Proponemos una técnica de remapeado de disparidad (disparity remapping) para displays automultiescópicos (aquellos capaces de presentar contenido tridimensional desde diferentes puntos de vista sin necesidad de utilizar gafas u otro equipamiento adicional). Dicha técnica tiene como objetivo eliminar o disminuir el problema de la profundidad de campo en dichos displays, en los que existe un compromiso entre la profundidad a la que se puede mostrar el contenido y lo nítido que se puede mostrar dicho contenido [2]. - Abordamos el problema del confort y la fatiga ocasionados por los displays estereoscópicos, y en particular la influencia del movimiento de los objetos de la pantalla en dicha fatiga. Realizamos un estudio para caracterizar el confort en función del movimiento de los objetos que es el más exhaustivo hasta la fecha, del que tengamos conocimiento. Basándonos en las medidas de dicho estudio proponemos una métrica para medir confort en clips de video, que permite identificar zonas que potencialmente causarán fatiga en el espectador [1]. Parte III: Interacción - El objetivo de esta parte es proponer un interfaz para edición de light fields (representaciones tetra-dimensionales de una escena, pueden verse como un conjunto estructurado de fotografías de la escena con un cierto paralaje entre ellas). Para ello se proponen dos paradigmas, se analizan y evalúan con usuarios, y en base a los resultados se propone un interfaz para la edición. Parte IV: Femto-fotografía Femto-fotografía hace referencia a una técnica que permite capturar videos de una escena macroscópica con una resolución temporal de menos de dos picosegundos, i.e. la luz viaja menos de un milímetro en cada imagen capturada por la cámara. Aunque esta parte se podría haber incluido en ¿Captura y procesamiento¿, se ha decidido separarla por ¿razones históricas¿, del contexto en que se realizó (se ha trabajado en este tema a raíz de dos estancias realizadas en el Camera Culture Group del MIT Media Lab, inventores de esta técnica), y porque no tiene una componente de percepción como las anteriores. En esta parte las contribuciones son en la visualización de los datos adquiridos por la cámara [3, 9], en la recuperación de profundidad a partir de dichos datos [4], y en la generación de imágenes con efectos relativistas con este tipo de datos (que suponen irradiancia no constante) [8]. Las contribuciones de esta tesis se recogen en las siguientes publicaciones: Publicaciones en revista (journals indexados en el JCR): [1] 2013 A Metric of Visual Comfort for Stereoscopic Motion S. Du, B. Masia, S. Hu, and D. Gutierrez ACM Transactions on Graphics, Vol. 32(6) (Proc. of SIGGRAPH Asia 2013). [2] 2013 Display Adaptive 3D Content Remapping B. Masia, G. Wetzstein, C. Aliaga, R. Raskar, and D. Gutierrez Computers & Graphics, Vol. 37(8). Special Issue on Advanced Displays. To appear. [3] 2013 Femto-Photography: Capturing and Visualizing the Propagation of Light A. Velten, D. Wu, A. Jarabo, B. Masia, C. Barsi, C. Joshi, E. Lawson, M. Bawendi, D. Gutierrez, and R. Raskar ACM Transactions on Graphics, Vol. 32(4) (Proc. of SIGGRAPH 2013). [4] 2013 Decomposing Global Light Transport using Time of Flight Imaging D. Wu, A. Velten, M. O¿Toole, B. Masia, A. Agrawal, Q. Dai, and R. Raskar International Journal of Computer Vision (IJCV), 2013. To appear. [5] 2013 A Review of Computational Displays: Pushing the Boundaries of Optics, Computation, and Perception B. Masia, G. Wetzstein, P. Didyk, and D. Gutierrez. Computers & Graphics, Vol. 37(8). Special Issue on Advanced Displays. To appear. [6] 2012 Perceptually-Optimized Coded Apertures for Defocus Deblurring B. Masia, L. Presa, A. Corrales, and D. Gutierrez Computer Graphics Forum, Vol. 31(6). [7] 2009 Evaluation of Reverse Tone Mapping Through Varying Exposure Conditions B. Masia, S. Agustin, R. Fleming, O. Sorkine, and D. Gutierrez ACM Transactions on Graphics, Vol. 28(5) (Proc. of SIGGRAPH Asia 2009). Publicaciones en conferencias con revisión ciega por pares: [8] 2013 Rendering Relativistic Effects in Transient Imaging A. Jarabo, B. Masia, A. Velten, C. Barsi, R. Raskar, and D. Gutierrez. In CEIG (Congreso Español de Informática Gráfica) 2013. Seleccionado como Best Paper (1 de 2). [9] 2012 Relativistic Ultrafast Rendering Using Time-Resolved Imaging A. Velten, D. Wu, A. Jarabo, B. Masia, C. Barsi, E. Lawson, C. Joshi, D. Gutierrez, M. Bawendi, and R. Raskar. In SIGGRAPH 2012 Talks. [10] 2012 Analysis of Coded Apertures for Defocus Deblurring of HDR Images L. Garcia, L. Presa, D. Gutierrez, and B. Masia. In CEIG (Congreso Español de Informática Gráfica) 2012. [11] 2011 Coded Apertures for Defocus Deblurring B. Masia, A. Corrales, L. Presa, and D. Gutierrez In SIACG (Iberoamerican Symposium on Computer Graphics) 2011. Seleccionado como Best Paper (1 de 3). [12] 2010 Selective Reverse Tone Mapping B. Masia, R. Fleming, O. Sorkine, and D. Gutierrez In CEIG (Congreso Español de Informática Gráfica) 2010. Tutoriales con revisión ciega por pares: [13] 2012 Computational Photography D. Gutierrez, B. Masia, and A. Jarabo. In CEIG (Congreso Español de Informática Gráfica) 2012. Technical reports: [14] 2011 Multilinear Regression for Gamma Expansion of Overexposed Content B. Masia and D. Gutierrez. Technical Report RR-03-11, Universidad de Zaragoza. Julio 2011. Como mérito adicional de la tesis, se ha recibido un fellowship de NVIDIA para parte del trabajo desarrollado en esta tesis, en concreto para la parte relacionada con displays computacionales (el porcentaje de concesión es de en torno al 4.5%). Dicha concesión lleva consigo la donación por parte de NVIDIA de $25,000 para el desarrollo de la investigación propuesta. [15] 2012 - 2013 NVIDIA Graduate Fellowship Program grant (https://research.nvidia.com/content/nvidia-graduate-fellowship-results-2012) Referencias adicionales: [Adelson and Bergen 1991] E.H. Adelson and J.R. Bergen. The plenoptic function and the elements of early vision. Computational models of visual processing, 1:3¿20, 1991.