Resumen: Las Infraestructuras de Datos Espaciales (IDE) continúan siendo, en muchos contextos, las principales fuentes de datos geoespaciales. Con el constante crecimiento del volumen de estos datos, la capacidad de encontrar el recurso espacial adecuado se ha vuelto cada vez más crítica. Sin embargo, este proceso suele ser complicado. En esta tesis, abordamos la problemática del descubrimiento de recursos espaciales en catálogos de datos geoespaciales. Para ello, realizamos una serie de estudios empíricos que identifican los problemas que limitan la efectividad de los catálogos y analizan su impacto real. Demostramos que, en muchos casos, los registros de metadatos de los catálogos no son suficientes para localizar el recurso deseado. Proporcionamos una definición formal del fenómeno conocido como Metadata Reference Rot, analizando sus componentes, y evidenciamos que afecta significativamente a los metadatos espaciales: menos del 75% de los registros contienen al menos una URL de distribución accesible. Además, demostramos que los sistemas de recuperación espacial actuales, basados en la representación de la Minimum Bounding Box (MBB), suelen generar resultados falsos positivos. Los resultados emp´ıricos evidencian una precisión muy variable entre catálogos, y ninguno logra métricas suficientemente altas. Como alternativa, proponemos un nuevo enfoque para mejorar la precisión de las búsquedas espaciales. Presentamos el DGGS Footprint, un método que utiliza Discrete Global Grid Systems (DGGS) para representar la extensión espacial de un conjunto de datos mediante una lista de celdas que intersectan con su huella real. Esta representación permite realizar búsquedas espaciales más precisas que los métodos tradicionales, como MBB o Convex Hull. Nuestro estudio empírico confirma que el DGGS Footprint mejora significativamente la precisión de las búsquedas, alcanzando un promedio superior al 96% en todos los catálogos analizados.
Resumen (otro idioma): Spatial Data Infrastructures (SDIs) remain, in many contexts, the primary sources of geospatial data. With the constant growth of geospatial data volumes, the ability to identify the correct spatial resource has become increasingly critical, yet often challenging. This thesis addresses the problem of discovering spatial resources in geospatial data catalogues. Through a series of empirical studies, we identify key issues limiting the effectiveness of these catalogues and evaluate their real-world impact. Our findings reveal that, in many cases, the metadata records in spatial catalogues are insufficient for locating the desired resource. We introduce a formal definition of Metadata Reference Rot and analyze its components, demonstrating its significant prevalence in spatial metadata: fewer than 75% of metadata records contain at least one accessible distribution URL. Furthermore, we show that current spatial retrieval systems, relying on Minimum Bounding Box (MBB) representations, are prone to generating false positive results. Empirical results highlight considerable variability in catalogue precision, with none achieving sufficiently high metrics. To address these limitations, we propose an alternative approach for improving search precision. We introduce DGGS Footprint, a novel method leveraging Discrete Global Grid Systems (DGGS) to represent the spatial extent of datasets. By encoding the dataset¿s footprint as a list of intersecting cells, this approach enables more accurate spatial searches compared to traditional MBB or Convex Hull methods. Our empirical evaluation demonstrates that DGGS Footprint significantly enhances search precision, achieving an average accuracy of over 96% across all studied catalogues.
Área de conocimiento: Ingeniería y Arquitectura Nota: Presentado: 22 05 2025 Nota: Tesis-Univ. Zaragoza, , 2025
Aportación del TFG/M a la Sostenibilidad: Desarrollar infraestructuras resilientes, promover la industrialización inclusiva y sostenible, y fomentar la innovación.