TAZ-TFG-2016-1808


GeoCrawler: sistema de crawler web enfocado al descubrimiento de información geográfica

Cáncer Gil, Jorge
López Pellicer, Francisco Javier (dir.)

Universidad de Zaragoza, EINA, 2016
Informática e Ingeniería de Sistemas department, Lenguajes y Sistemas Informáticos area

Graduado en Ingeniería Informática

Abstract: La búsqueda de información en la web es uno de los aspectos clave en la actualidad. Gran cantidad de herramientas buscan información en la web con motivos muy diversos. Entre esos motivos esta la realización de motores de búsqueda generales o enfocados, búsqueda de imágenes, comparadores de información, etc. Para alguno de ellos se utilizan crawlers. Los crawlers son robots o arañas que se van propagando por páginas web a través de los enlaces de estas. Recopilan información, así como enlaces (links) de entrada y enlaces de salida. El caso de la información geográfica es distinto, no es factible la recopilación de datos geográficos publicados por administraciones públicas por medio de crawlers genéricos. En este trabajo se ha realizado un crawler enfocado a la búsqueda y recolección de información geográfica publicada bajo alguno de los estándares OGC Para ello se han realizado modificaciones al crawler de código abierto Nutch. Estas modificaciones actúan en partes concretas del flujo de trabajo del crawler para modificar o añadir funcionalidad del mismo. En concreto se ha modificado el sistema de scoring para adaptarlo a un sistema de búsqueda enfocado basado en un algoritmo de búsqueda llamado Shark-Search. Se ha hecho uso de un tesauro con términos geográficos para ayudar al crawler a estimar la importancia de una página web. Los documentos recuperados se guardan en el sistema de ficheros de la máquina en la cual se está ejecutando. Una vez se acabó el crawler se realizaron pruebas para recolectar información. Durante esas pruebas se detectaron problemas que fueron solucionados. También se realizaron ajustes para mejorar el rendimiento del crawler. Tras las modificaciones se obtuvo un resultado muy prometedor llegando a recuperar gran cantidad de documentos con los que se pueden realizar tareas de análisis de datos o big data.

Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License

El registro pertenece a las siguientes colecciones:
Academic Works > Trabajos Académicos por Centro > escuela-de-ingeniería-y-arquitectura
Academic Works > End-of-grade works



Back to search

Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)