Synthetische Datengenerierung aus PostgreSQL für PostgreSQL

Erhart, Timon and Elmer, Jari (2022) Synthetische Datengenerierung aus PostgreSQL für PostgreSQL. Other thesis, OST Ostschweizer Fachhochschule.

[thumbnail of HS 2021 2022-SA-EP-Elmer-Erhart-Synthetische Datengenerierung aus PostgreSQL für PostgreSQL.pdf] Text
HS 2021 2022-SA-EP-Elmer-Erhart-Synthetische Datengenerierung aus PostgreSQL für PostgreSQL.pdf - Supplemental Material

Download (3MB)

Abstract

In den Bereichen Software- und Data-Engineering sowie Machine-Learning besteht eine grosse Nachfrage nach umfangreichen Datensätzen. Dabei ist Datenschutz oftmals ein Grund, keine Realdaten zu verwenden. Die Generierung von synthetischen Daten mit ähnlichen statistischen Eigenschaften wie die Originaldaten ermöglichen es, einfach solche Datensets zu erstellen.

Das Kommandozeilen-Tool pgsynthdata erzeugt synthetische Daten ausgehend von einer PostgreSQL-Datenbank und füllt diese in eine generierte Datenbank mit gleicher Struktur ab. Grundlage für die Datengenerierung bilden statistische Werte, die PostgreSQL zur Verfügung stellt.

Ziel der Arbeit ist es, den bestehenden Prototyp in einen wartbaren, erweiterbaren und einfach zu nutzenden Zustand zu überführen. Das Programm soll auf beliebigen PostgreSQL-Datenbanken anwendbar sein und vollständig synthetisch generierte Datenbanken erstellen. Die schon unterstützten Datentypen sollen um weitere Datentypen ergänzt werden.

Unter Berücksichtigung gängiger Software Design Praktiken und Einbindung moderner Entwicklungswerkzeuge wurde ein umfassendes Refactoring vorgenommen und ein Plugin-System für die leichte Anbindung der Datengeneratoren geschaffen. Durch die Implementierung von neuen Generatoren für bisher noch nicht unterstützte Datentypen wie Arrays, Enums oder Spatial-Types (PostGIS) wurde das Tool einerseits erweitert und andererseits das Plugin-System validiert.

Entstanden ist ein wartbares und erweiterbares Programm mit einem flexiblen Plugin-System für Generatoren. Durch die klare Trennung nach Zuständigkeit der Module konnte die Qualität und Testbarkeit erhöht werden. Die neuen Generatoren haben demonstriert, dass sich das Plugin-System auch für komplexere oder benutzerdefinierte Datentypen eignet. Spezifische Generatoren ermöglichen über eine benutzerfreundliche Konfiguration die individuelle Anpassung an erweiterte Anwendungsfälle, wie die Generierung von realistische Personendaten oder Adressen.

Item Type: Thesis (Other)
Subjects: Area of Application > Academic and Education
Technologies > Programming Languages > Python
Technologies > Databases
Technologies > Databases > PostgreSQL
Divisions: Bachelor of Science FHO in Informatik > Student Research Project
Depositing User: OST Deposit User
Contributors:
Contribution
Name
Email
Thesis advisor
Keller, Stefan
UNSPECIFIED
Date Deposited: 07 Mar 2022 10:13
Last Modified: 07 Mar 2022 20:10
URI: https://eprints.ost.ch/id/eprint/983

Actions (login required)

View Item
View Item