Original paper

Federated Catalogue for Discovering Earth Observation Data

Shao, Yuanzheng; Di, Liping; Bai, Yuqi; Wang, Huilin; Yang, Chao

Abstract

As Earth observation (EO) technologies develop continuously, the volumes of geospatial data archived in data centers also grow. Those geospatial data can be used in many scientific fields such as agriculture, land use and climate change. The complex features and massive amounts of EO data bring challenges on how to make better use of these data for the community and for public service. Most of legacy data center distribute the data through individual catalogue, and use heterogeneous query interface and metadata model. To find the data of interest from multiple data source for multi-disciplinary research, the scientists and data users need to handle different query languages and metadata models. To facilitate Earth observation data discovery for researchers, this paper proposes a federated catalogue to integrate multiple legacy data centers. By analysing existing data discovery mechanism, mediator-wrapper framework was adopted to implement catalogue federation. By solving the query interface translation and metadata model conversion between federated catalogues and individual data centers, a system - The CEOS WGISS Integrated Catalogue (CWIC) was implemented. CWIC was proved to be an effective tool to discovery geospatial data from multi-source data centers by interacting with standardized query interface and metadata model. The architecture and approaches proposed in this paper can be used to establish a federated catalogue system for different communities.

Kurzfassung

Mit dem fortschreitenden Ausbau der Erdbeobachtung steigen auch die zu archivierenden Datenmengen. Die Daten finden in den Geowissenschaften vielfältig Verwendung, z. B. in der Landwirtschaft, beim Monitoring von Landnutzungsänderungen und beim Klimawandel. Die komplexe Datenstruktur und die riesigen Datenmengen sind eine Herausforderung an die geeignete Bereitstellung für private und öffentliche Zwecke. Die meisten staatlichen Datenzentren bieten ihre Daten über eigene Kataloge und sehr unterschiedliche Benutzerschnittstellen und Metadatenmodelle an. Für fächerübergreifende Untersuchungen müssen die Benutzer unterschiedliche Abfragesprachen einsetzen. Zur Vereinfachung wird daher in diesem Artikel ein Konzept für einen Zentralkatalog für die übergreifende Suche in vielen Datenzentren vorgestellt. Nach der Analyse verschiedener vorhandener Lösungen wurde das ,,Mediator-Wrapper“-Modell für den Zentralkatalog zu Grunde gelegt. Der Zentralkatalog wurde als ,,CEOS WGISS Integrated Catalogue (CWIC)“ implementiert, nachdem die Transformation der Abfragen (queries) und der Metadaten in eine standardisierte Form gelöst war. Inzwischen hat der CWIC seine Leistungsfähigkeit für katalogübergreifende Abfragen unter Beweis stellen können. Die in diesem Artikel vorgestellte Architektur kann zur Einrichtung von Zentralkatalogen auch in anderen Communities empfohlen werden.

Keywords

earth observationfederated cataloguemediator-wrapper architecturegeospatial data discoveryceos wgiss integrated catalogue