Qualitatsprüfung der Verknüpfungen von OpenStreetMap nach Wikidata

Erhart, Timon and Elmer, Jari (2022) Qualitatsprüfung der Verknüpfungen von OpenStreetMap nach Wikidata. Other thesis, OST Ostschweizer Fachhochschule.

[thumbnail of FS 2022-BA-EP-Elmer-Erhart-Qualitätsprüfung der Verknüpfungen von OpenStreetMap nach Wi.pdf] Text
FS 2022-BA-EP-Elmer-Erhart-Qualitätsprüfung der Verknüpfungen von OpenStreetMap nach Wi.pdf - Supplemental Material

Download (3MB)

Abstract

Die freie Landkarte OpenStreetMap ist in der Lage, Verknüpfungen auf die strukturierte Wissensdatenbank Wikidata abzubilden. Derzeit existieren rund 5.5 Millionen solcher Verknüpfungen von OpenStreetMap zu Wikidata. Die Qualität dieser Verknüpfungen ist bislang jedoch unbekannt und ungeprüft.

Die entwickelte Applikation "osm wikidata quality checker" überprüft diese Verknüpfungen auf deren Qualität. Sie läuft in einem Docker-Container, besorgt sich selbstständig die Datensätze, verarbeitet diese und liefert gefundene Fehler an die etablierte Fehlerdatenbank Osmose. Ziel dieser Arbeit ist, dass die Applikation ein dauerhafter Teil der Infrastruktur zur Qualitätssicherung von OpenStreetMap wird und einfach weiterentwickelt werden kann.

Die Grundlage für die Checks liefern die Datenbank-Dumps von OpenStreetMap und Wikidata. Die Herausforderung bestand darin, die enorme Datenmenge innerhalb einer Woche und mit geringem Speicherplatzbedarf zu verarbeiten. Dies wurde hauptsächlich durch den Einsatz von Multiprocessing und des entwickelten Datenbankmodells, bei dem nur die relevanten Daten extrahiert werden, erreicht. Auch Schwierigkeiten im Umgang mit crowdsourced Data, bei denen mit unvorhergesehene Datenfehlern gerechnet werden muss, wurden erfolgreich gemeistert, sodass eine hohe Fehlertoleranz erreicht wurde. Eine ausführliche Dokumentation sowie die leicht verständliche Architektur ermöglicht es, das Tool auszubauen und weitere Checks zu implementieren. Die optionale Konfiguration bietet die nötige Flexibilität im Betrieb und hilft bei der Weiterentwicklung.

Entstanden ist ein betriebsreifes Werkzeug, welches in der Lage ist, mit den grossen Datenmengen umzugehen und die gesamte Welt innerhalb der geforderten Frist zu prüfen. Aktuell werden weltweit über 30'000 Fehler in neun Kategorien gefunden. Dabei wird eine hohe Treffsicherheit von 95% erreicht.

The free geographic map OpenStreetMap is able to map links to the structured knowledge database Wikidata. Currently, there are about 5.5 million such links from OpenStreetMap to Wikidata. However, the quality of these links is unknown and unchecked so far.

The developed application "osm wikidata quality checker" checks these links for their quality. It runs in a Docker container, gets the datasets on its own, processes them and delivers found errors to the established error database Osmose. The goal of this work is for the application to become a permanent part of OpenStreetMap's quality assurance infrastructure and be easily developed further.

The database dumps from OpenStreetMap and Wikidata provide the basis for the checks. The challenge is to process the enormous amount of data within a week and with low storage requirements. This was mainly achieved by using multiprocessing and the developed database model where only the relevant data is extracted. Difficulties in dealing with crowdsourced data, where unforeseen data errors must be expected, were also successfully mastered, so that a high error tolerance was achieved. A detailed documentation as well as the easy to understand architecture allows to extend the tool and to implement further checks. The optional configuration offers the necessary flexibility in operation and helps with further development.

The result is a ready-to-use tool that is able to handle large amounts of data and to check the entire world within the required timeframe. Currently, more than 30,000 errors in nine categories are found worldwide. A high accuracy of 95% is achieved.

Item Type: Thesis (Other)
Subjects: Area of Application > GIS > OpenStreetMap
Technologies > Programming Languages > Python
Technologies > Databases
Technologies > Virtualization > Docker
Metatags > IFS (Institute for Software)
Divisions: Bachelor of Science FHO in Informatik > Bachelor Thesis
Depositing User: OST Deposit User
Contributors:
Contribution
Name
Email
Thesis advisor
Keller, Stefan
UNSPECIFIED
Date Deposited: 19 Sep 2022 07:36
Last Modified: 19 Sep 2022 07:36
URI: https://eprints.ost.ch/id/eprint/1042

Actions (login required)

View Item
View Item