TAZ-PFC-2011-196


Interpretación de carteles con la cámara de un móvil

Cambra Linés, Ana Belén
Murillo Arnal, Ana Cristina (dir.)

Universidad de Zaragoza, CPS, 2011
Departamento de Informática e Ingeniería de Sistemas, Área de Ingeniería de Sistemas y Automática

Ingeniero en Informática

Resumen: Mucha de la información que recibimos es visual y, cada vez encontramos más cámaras y bases de datos de imágenes a nuestra disposición. Por ello, el procesamiento automático e “inteligente” de imágenes tiene mucho interés en el desarrollo de nuevas tecnologías y aplicaciones basadas en visión artificial. En particular, en este proyecto el trabajo se centra en las tecnologías en auge de aplicaciones móviles, y cómo hacer uso de las cámaras integradas en los smartphones y de su capacidad cada vez mayor de cómputo. Gracias a esto, se pueden desarrollar aplicaciones relacionadas con la visión por computador en móviles, algo impensable hasta hace poco debido a las grandes limitaciones que presentaban. En el presente proyecto se desarrolla una aplicación para el iPhone capaz de extraer el texto de carteles rectangulares presentes en una imagen. Aunque actualmente existen muchos reconocedores de caracteres, llamados Optical Character Recognitions (OCRs), que permiten extraer el texto de una imagen, sus buenos resultados están muy condicionados a cómo se presenta el texto dentro de dicha imagen. Se requiere que el usuario enfoque con mucha precisión dónde se encuentran los textos a leer. Esta situación es una gran restricción y sobretodo muy poco realista y robusta, además de no permitir aprovechar estas tecnologías para, por ejemplo, dar servicios a personas con problemas de visión. Por ello, un objetivo principal de este proyecto es desarrollar una aplicación que libere al usuario de tal restricción. El funcionamiento de la aplicación desarrollada puede resumirse en tres pasos: elección, procesamiento y lectura del texto de una imagen. Primero el usuario debe capturar una imagen. En el segundo paso se procesa dicha imagen para obtener una nueva que sea más adecuada, para que en el último paso, su texto pueda ser extraído fácilmente por un OCR ya existente integrado también en el teléfono. El trabajo desarrollado en este proyecto, se centra sobretodo en el segundo paso: diseñar e implementar un proceso por el cual obtener una imagen adecuada para conseguir unos buenos resultados con un OCR, y en diseñar un prototipo que presente un funcionamiento satisfactorio en el teléfono. Para ello, antes de comenzar con la fase de desarrollo ha sido necesario una familiarización con el entorno: desde el sistema operativo al entorno de programación, así como estudiar la viabilidad de la inclusión de librerías estándar al dispositivo. En el proyecto se ha diseñado e implementado un detector de rectángulos y un modelo para evaluar la probabilidad de que éstos contengan texto. También se han comparado tres OCRs con el fin de seleccionar aquel que mejor se adapta al proyecto y se ha integrado todo lo anterior creando un prototipo real para el iPhone. La aplicación se ha probado tanto en el simulador como en dos dispositivos físicos: un iPhone 4 y un iPod Touch. Los resultados obtenidos han sido satisfactorios, consiguiendo un prototipo realista, y que podría utilizarse tanto como traductor de textos como asistente de lectura ante deficiencias visuales.


Palabra(s) clave (del autor): visión por computador ; reconocimiento de objetos ; detección de estructuras rectangulares ; OCR ; programación para dispositivos móviles
Tipo de Trabajo Académico: Proyecto Fin de Carrera

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Centro Politécnico Superior
Trabajos académicos > Proyectos fin de carrera



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)