Erhart, Timon and Elmer, Jari (2022) Synthetische Datengenerierung aus PostgreSQL für PostgreSQL. Other thesis, OST Ostschweizer Fachhochschule.
HS 2021 2022-SA-EP-Elmer-Erhart-Synthetische Datengenerierung aus PostgreSQL für PostgreSQL.pdf - Supplemental Material
Download (3MB)
Abstract
In den Bereichen Software- und Data-Engineering sowie Machine-Learning besteht eine grosse Nachfrage nach umfangreichen Datensätzen. Dabei ist Datenschutz oftmals ein Grund, keine Realdaten zu verwenden. Die Generierung von synthetischen Daten mit ähnlichen statistischen Eigenschaften wie die Originaldaten ermöglichen es, einfach solche Datensets zu erstellen.
Das Kommandozeilen-Tool pgsynthdata erzeugt synthetische Daten ausgehend von einer PostgreSQL-Datenbank und füllt diese in eine generierte Datenbank mit gleicher Struktur ab. Grundlage für die Datengenerierung bilden statistische Werte, die PostgreSQL zur Verfügung stellt.
Ziel der Arbeit ist es, den bestehenden Prototyp in einen wartbaren, erweiterbaren und einfach zu nutzenden Zustand zu überführen. Das Programm soll auf beliebigen PostgreSQL-Datenbanken anwendbar sein und vollständig synthetisch generierte Datenbanken erstellen. Die schon unterstützten Datentypen sollen um weitere Datentypen ergänzt werden.
Unter Berücksichtigung gängiger Software Design Praktiken und Einbindung moderner Entwicklungswerkzeuge wurde ein umfassendes Refactoring vorgenommen und ein Plugin-System für die leichte Anbindung der Datengeneratoren geschaffen. Durch die Implementierung von neuen Generatoren für bisher noch nicht unterstützte Datentypen wie Arrays, Enums oder Spatial-Types (PostGIS) wurde das Tool einerseits erweitert und andererseits das Plugin-System validiert.
Entstanden ist ein wartbares und erweiterbares Programm mit einem flexiblen Plugin-System für Generatoren. Durch die klare Trennung nach Zuständigkeit der Module konnte die Qualität und Testbarkeit erhöht werden. Die neuen Generatoren haben demonstriert, dass sich das Plugin-System auch für komplexere oder benutzerdefinierte Datentypen eignet. Spezifische Generatoren ermöglichen über eine benutzerfreundliche Konfiguration die individuelle Anpassung an erweiterte Anwendungsfälle, wie die Generierung von realistische Personendaten oder Adressen.
Item Type: | Thesis (Other) |
---|---|
Subjects: | Area of Application > Academic and Education Technologies > Programming Languages > Python Technologies > Databases Technologies > Databases > PostgreSQL |
Divisions: | Bachelor of Science FHO in Informatik > Student Research Project |
Depositing User: | OST Deposit User |
Contributors: | Contribution Name Email Thesis advisor Keller, Stefan UNSPECIFIED |
Date Deposited: | 07 Mar 2022 10:13 |
Last Modified: | 07 Mar 2022 20:10 |
URI: | https://eprints.ost.ch/id/eprint/983 |