TAZ-TFG-2016-1832


Infraestructura de personalización y monitorización de crawlers basada en Docker

Alonso Ruiz, Íñigo
López Pellicer, Francisco Javier (dir.)

Universidad de Zaragoza, EINA, 2016
Departamento de Informática e Ingeniería de Sistemas, Área de Lenguajes y Sistemas Informáticos

Graduado en Ingeniería Informática

Resumen: Algunos proyectos requieren la creación de arañas web o crawlers para obtener datos concretos de la web. Estas arañas suelen ser construidas enfocadas para un uso concreto y su configuración es bastante compleja y costosa en lo que en tiempo se refiere. El objetivo de este Trabajo de Fin de Grado es el desarrollo de un sistema de creación, personalización, y monitorización de crawlers basado en contenedores virtuales Docker definidos mediante un pequeño lenguaje de configuración o DSL (Domain Specific Language) sencillo y de un sistema de persistencia de datos para la información recolectada por los crawlers. El sistema está desarrollado para poder ser utilizado para uso individual, o colectivo. Puede ser gestionado a través de línea de comandos, dando posibilidad a un uso más rápido a usuarios más expertos, o vía web, donde el sistema será gestionará la posibilidad de ser usado por varios usuarios a través de una interfaz usable y sencilla. Las funcionalidades que ofrece sobre los crawlers incluyen desde su creación, configuración, monitorización de su estado, control del mismo e incluso un buscador e indexador propio para tratar la información recogida de forma personalizada acomodándose a las necesidades de cada sistema. A pesar de que un sistema de crawling completo pueda ser muy costoso de crear, gracias a Docker y su reutilización de partes de sistemas ya construidos, la creación es casi inmediata, aparte de otras muchas ventajas que ofrece como su portabilidad y ligereza (tamaño en memoria) respecto a las máquinas virtuales convencionales. Así pues, a través de un desarrollo incremental guiado por pequeñas iteraciones, y dirigido por pruebas (inspirado en la conocida aproximación TDD - Testing Driven Development) se ha ido construyendo un sistema en constante evolución, unificando varias tecnologías para conseguir como resultado un sistema potente que posibilita la construcción casi inmediata de instancias de sistemas de crawling.

Tipo de Trabajo Académico: Trabajo Fin de Grado

Creative Commons License



El registro pertenece a las siguientes colecciones:
Trabajos académicos > Trabajos Académicos por Centro > Escuela de Ingeniería y Arquitectura
Trabajos académicos > Trabajos fin de grado



Volver a la búsqueda

Valore este documento:

Rate this document:
1
2
3
 
(Sin ninguna reseña)