ETIM Klassifikation mit ML-Approach

Baumgartner, Etienne and Gall, Nathanael (2021) ETIM Klassifikation mit ML-Approach. Other thesis, OST Ostschweizer Fachhochschule.

[thumbnail of FS 2021-SA-EP-Baumgartner-Gall-ETIM Klassifikation mit ML-Approach.pdf] Text
FS 2021-SA-EP-Baumgartner-Gall-ETIM Klassifikation mit ML-Approach.pdf - Supplemental Material

Download (2MB)

Abstract

Das ETIM Klassifikationsmodel setzt sich auf dem internationalen Markt immer mehr durch. Die ETIM Klassifikation vereinfacht einerseits den Datenaustausch zwischen Händler und Hersteller und andererseits die Klassifizierung der Produkte. Die Geberit AG nutzt diesen Standard für ihren Produktekatalog und die Klassifizierung wird manuell durch einen Sachbearbeiter vorgenommen.
Das Ziel der Arbeit ist die Entwicklung und der Vergleich von zwei Verfahren zur automatischen Bestimmung der ETIM Klasse auf der Basis von maschinellem Lernen.

Der Erfolg der Arbeit beruht auf der richtigen Verwertung der von Geberit zur Verfü-gung gestellten Produktdaten. Auf Grund der Analyse wurden zwei Ansätze entwickelt, um die ETIM Klassifizierung zu erlernen.

One-Hot-Encoding:
Die Daten werden für das Trainieren auf einem Deep Neural Network One-Hot-Encoded. Um die Anzahl Dimensionen des Netzwerks möglichst klein zu halten, wird anhand des Bayes Errors die optimale Spaltenkombination ermittelt. Auf dieser Auswahl wird ausserdem ein Lookup Table erstellt, um eindeutige Datensätze direkt zu klassifizieren.

Textembedding:
Viele der Spalten weisen einen grossen Anteil an deutschem Text auf. Es wird mit der fastText Library ein Textembedding trainiert, welches die Artikel den jeweiligen ETIM Klassen zuordnet.

Nach der Optimierung dieser zwei Ansätze stellt sich heraus, dass der textbasierte fastText Algorithmus genauere Resultate liefert. Mit dem fastText Model wird auf dem vorab abgetrennten finalen Testset eine Top-1-Accuracy von 0.961 und eine Top-3-Accuracy von 0.982 erreicht.
Die höhere Accuracy ist auf die bessere Verwertungder Spaltentexte zurückzuführen, weil dasTextembedding die Nähe zweier verschiedener Werteabbilden kann, während beim One-Hot-Encoding alle unterschiedlichen Werte äquidistant sind.

Die Empfehlung ist, die drei wahrscheinlichsten Klassen des fastText Top-3-Algorithmus zu präsentieren und die finale Entscheidung einem Benutzer zu überlassen.

Item Type: Thesis (Other)
Subjects: Area of Application > Business oriented
Area of Application > Industry
Technologies > Programming Languages > Python
Divisions: Bachelor of Science FHO in Informatik > Student Research Project
Depositing User: OST Deposit User
Contributors:
Contribution
Name
Email
Thesis advisor
Augenstein, Oliver
UNSPECIFIED
Date Deposited: 13 Dec 2021 10:20
Last Modified: 13 Dec 2021 10:20
URI: https://eprints.ost.ch/id/eprint/957

Actions (login required)

View Item
View Item