000060513 001__ 60513
000060513 005__ 20170301113905.0
000060513 037__ $$aTAZ-TFG-2016-1808
000060513 041__ $$aspa
000060513 1001_ $$aCáncer Gil, Jorge
000060513 24200 $$aGeoCrawler: Web crawler system focused on geographic data retrieval
000060513 24500 $$aGeoCrawler: sistema de crawler web enfocado al descubrimiento de información geográfica
000060513 260__ $$aZaragoza$$bUniversidad de Zaragoza$$c2016
000060513 506__ $$aby-nc-sa$$bCreative Commons$$c3.0$$uhttp://creativecommons.org/licenses/by-nc-sa/3.0/
000060513 520__ $$aLa búsqueda de información en la web es uno de los aspectos clave en la actualidad. Gran cantidad de herramientas buscan información en la web con motivos muy diversos. Entre esos motivos esta la realización de motores de búsqueda generales o enfocados, búsqueda de imágenes, comparadores de información, etc. Para alguno de ellos se utilizan crawlers. Los crawlers son robots o arañas que se van propagando por páginas web a través de los enlaces de estas. Recopilan información, así como enlaces (links) de entrada y enlaces de salida. El caso de la información geográfica es distinto, no es factible la recopilación de datos geográficos publicados por administraciones públicas por medio de crawlers genéricos. En este trabajo se ha realizado un crawler enfocado a la búsqueda y recolección de información geográfica publicada bajo alguno de los estándares OGC  Para ello se han realizado modificaciones al crawler de código abierto Nutch. Estas modificaciones actúan en partes concretas del flujo de trabajo del crawler para modificar o añadir funcionalidad del mismo. En concreto se ha modificado el sistema de scoring para adaptarlo a un sistema de búsqueda enfocado basado en un algoritmo de búsqueda llamado Shark-Search. Se ha hecho uso de un tesauro con términos geográficos para ayudar al crawler a estimar la importancia de una página web.  Los documentos recuperados se guardan en el sistema de ficheros de la máquina en la cual se está ejecutando. Una vez se acabó el crawler se realizaron pruebas para recolectar información. Durante esas pruebas se detectaron problemas que fueron solucionados. También se realizaron ajustes para mejorar el rendimiento del crawler. Tras las modificaciones se obtuvo un resultado muy prometedor llegando a recuperar gran cantidad de documentos con los que se pueden realizar tareas de análisis de datos o big data.
000060513 521__ $$aGraduado en Ingeniería Informática
000060513 540__ $$aDerechos regulados por licencia Creative Commons
000060513 700__ $$aLópez Pellicer, Francisco Javier$$edir.
000060513 7102_ $$aUniversidad de Zaragoza$$bInformática e Ingeniería de Sistemas$$cLenguajes y Sistemas Informáticos
000060513 8560_ $$f646122@celes.unizar.es
000060513 8564_ $$s1772815$$uhttps://zaguan.unizar.es/record/60513/files/TAZ-TFG-2016-1808.pdf$$yMemoria (spa)
000060513 909CO $$ooai:zaguan.unizar.es:60513$$pdriver$$ptrabajos-fin-grado
000060513 950__ $$a
000060513 951__ $$adeposita:2017-02-28
000060513 980__ $$aTAZ$$bTFG$$cEINA