TAZ-PFC-2013-257


Descriptores globales binarios para el reconocimiento de imágenes

Escorihuela Miravet, Santiago
Civera Sancho, Javier (dir.)

Universidad de Zaragoza, EINA, 2013
Departamento de Informática e Ingeniería de Sistemas, Área de Ingeniería de Sistemas y Automática

Ingeniero Industrial

Resumen: La visión por computador es la disciplina cuyo objetivo se suele plantear como "que un ordenador pueda ver". La definición de "ver" es bastante compleja, puesto que todos los mecanismos de la visión humana todavía no están bien entendidos. Pero sin duda alguna, uno de los aspectos que involucra la visión humana y que ha sido objeto de estudio por la visión por computador es el reconocimiento de escenas. En dicho problema, un computador recibe una imagen y debe clasificarla según la escena en la que ha sido tomada (parque, oficina, aeropuerto...). Uno de los aspectos más importantes en el reconocimiento de imágenes es cómo describir el contenido de la imagen. Algebráicamente, un descriptor suele ser un vector de números reales más o menos complejo de extraer a partir de la imagen. Idealmente, dicho descriptor debería contener la información necesaria para clasificar la escena de la imagen. En el estado actual de la técnica, las tasas de reconocimiento visual de escenas son bastante bajas y el problema dista mucho de estar resuelto y es objeto de investigación. Un problema de algunos descriptores es la cantidad de cómputo necesario para extraerlos y evaluarlos y la memoria requerida para almacenarlos. Este problema es muy relevante cuando las bases de datos de imágenes adquieren tamaños muy grandes, como Google Images o las imágenes de Facebook. En estas bases de datos, cualquier mejora en tiempo o almacenamiento conlleva un gran ahorro. El objetivo del proyecto es la propuesta de un descriptor binario y global para la clasificación de imágenes. La ventaja de este descriptor respecto a otros es en tiempo de cómputo y almacenamiento: Las operaciones binarias pueden realizarse muy rápidamente en los procesadores actuales. Y un número binario ocupa 1 bit, mientras que un real ocupa como mínimo 32 bits. Además de la propuesta, evaluaremos el comportamiento del descriptor en una base de datos estándar de visión por computador (SUN database) y lo compararemos con el descriptor más similar (Tiny Image). En dicha evaluación exploraremos diferentes configuraciones del descriptor para encontrar la configuración óptima y poder compararla con un descriptor del estado del arte.


Palabra(s) clave (del autor): visión por computador ; reconocimiento de escenas ; descriptores de imagen ; descriptores binarios ; clasificación
Tipo de Trabajo Académico: Proyecto Fin de Carrera

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Proyectos fin de carrera



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)