Resumen: Actualmente hay multitud de fuentes de datos libres y heterogéneas de las que se pueden obtener datos para un propósito específico. Integrar estos datos en general puede resultar costosos ya que cada fuente sigue su propio esquema. Es por tanto necesario llevar a cabo un proceso de integración sistemático que cree un esquema que aporte una visión global enriquecida y consistente de los diferentes componentes. Es aquí donde las ontologías juegan un papel clave debido a su esquema y a la capacidad de establecer nuevas relaciones. Una ontología es una definición formal que representa un conocimiento, mediante un esquema cuyos conceptos, propiedades y relaciones constituyen la especificación formal de un área de conocimiento. En el presente trabajo se va desarrollar una herramienta cuyo propósito es extraer conjuntos de datos de fuentes públicas y poblar automáticamente una ontología. Para su desarrollo se ha utilizado el framework de Python Flask integrado con una base de datos orientada a grafos, en este caso Neo4j. Aunque la extracción de los conjuntos de datos depende exclusivamente de la fuente de datos, la extracción se lleva cabo mediante el uso de la API que exponen las fuentes. Tras el proceso de extracción se ha utilizado la librería rdflib que permite crear grafos RDF. Los grafos RDF se importan en Neo4j mediante el uso del plugin Neosemantic, que permite trabajar con tripletas RDF. Estas tripletas se crearán acorde a los conceptos y propiedades propios del modelo de información IDS. Este proyecto se enmarca en el trabajo realizado en el área de Biga data y sistemas cognitivos del Instituto Tecnológico de Aragón, desde la cual se se estableció como requisito del trabajo el uso de la ontolog ́ıa desarrollada por IDSA y que la herramienta permitiese la visualización de los conjuntos de datos integrados y la interacción del usuario con estos a través de una interfaz web. Para alcanzar el objetivo se ha utilizado Jquery y Bootstrap para desarrollar una interfaz rápida y simple. Finalmente se ha utilizado procesamiento del lenguaje natural para enriquecer las búsquedas que los usuarios realicen a Neo4j mediante el uso de la librería TXTAI para Python.
Tipo de Trabajo Académico: Trabajo Fin de Grado
Notas: Este trabajo de final de grado se enmarca dentro de las líneas del Instituto Tecnológico de Aragón.