Senn, Fabian and Lam, Cyrill (2013) Selbstlernende Software zur Analyse von Texten. Bachelor thesis, HSR Hochschule für Technik Rapperswil.
BA_clam_fsenn.pdf - Supplemental Material
Download (3MB) | Preview
Abstract
In der heutigen Zeit ist gerade die Informationsflut ein grosses Thema. Es ist eine Struktur gefordert, um Informationen effizient verarbeiten zu können. Mit der Zunahme an Daten, wird es jedoch immer schwieriger den Überblick zu wahren. Automatisierung ist also das Stichwort.
Illustriert wird das Problem durch das Beispiel einer Schweizer Firma, die eine öffentliche E-Mail Adresse für Kundenservice zur Verfügung stellt. Um die vielen Kundenanfragen bewältigen zu können, fordert sie eine automatisierte E-Mail Kategorisierung, damit die Nachrichten an die dafür zuständigen Stellen weitergeleitet werden können. Auf diese Weise wird erhofft, die Antwortzeiten zu verkürzen und gleichzeitig Kosten zu reduzieren. Da der Standort in der Schweiz ist, kann der geschäftliche E-Mail Verkehr in Deutsch, Englisch, Italienisch wie auch in Französisch stattfinden. Deshalb soll der Klassifizierer mit diesen Sprachen umgehen können.
In dieser Bachelor Arbeit wurde eine Software entwickelt, die die obenstehenden Anforderungen in Angriff nimmt. Für den Klassifizierungsprozess wird eine Multiclass Support Vector Machine verwendet. Sie gehört zu den intelligenten Systemen, die Modelle eigenständig lernen können. Einzige Voraussetzung für den Lernprozess ist das Vorhandensein von vorkategorisierten E-Mail Daten.
Im Lernprozess müssen die optimalen Parameter der Maschine mittels einem Validationsverfahren eruiert werden. Anschliessend kann mit diesen Einstellungen ein finales Training gestartet werden, welches am Schluss eine voll funktionsfähige Maschine zur Verfügung stellt. Das Ausfüh- ren sowie die Spezifikation des Trainingsvorgangs soll mittels einem GUI konfigurierbar gemacht werden.
Ist eine Maschine trainiert worden, kann sie Eingabedaten selbstständig den ihr bekannten Kategorien zuordnen. Die Maschine verhält sich hierbei passiv, da sie nur probabilistische Aussagen treffen kann.
Als Erweiterung können auch mehrere Klassifizierer hintereinander geschaltet werden. Dies ist zum Beispiel nützlich, wenn eine feingranulare Aufteilung nötig ist. So könnte beispielsweise in erster Instanz ein Spamfilter trainiert werden, der nur die beiden Kategorien “Spam“ und “nicht-Spam“ kennt. Erst wenn klar ist, dass es sich bei der Nachricht nicht um Spam handelt, beginnt die eigentliche Zuteilung. Der Entscheidungsweg kann grafisch dargestellt werden, damit gut nachvollzogen werden kann wie man auf das Resultat gekommen ist.
Item Type: | Thesis (Bachelor) |
---|---|
Subjects: | Area of Application > Industry Area of Application > Data Mining Metatags > INS (Institute for Networked Solutions) |
Divisions: | Bachelor of Science FHO in Informatik > Bachelor Thesis |
Depositing User: | OST Deposit User |
Contributors: | Contribution Name Email Thesis advisor Schärer, Rolf UNSPECIFIED Thesis advisor Michael, Jakob UNSPECIFIED |
Date Deposited: | 23 Jul 2013 10:49 |
Last Modified: | 10 Sep 2013 08:03 |
URI: | https://eprints.ost.ch/id/eprint/314 |