Selbstlernende Software zur Analyse von Texten

Senn, Fabian and Lam, Cyrill (2013) Selbstlernende Software zur Analyse von Texten. Bachelor thesis, HSR Hochschule für Technik Rapperswil.

[thumbnail of BA_clam_fsenn.pdf]
Preview
Text
BA_clam_fsenn.pdf - Supplemental Material

Download (3MB) | Preview

Abstract

In der heutigen Zeit ist gerade die Informationsflut ein grosses Thema. Es ist eine Struktur gefordert, um Informationen effizient verarbeiten zu können. Mit der Zunahme an Daten, wird es jedoch immer schwieriger den Überblick zu wahren. Automatisierung ist also das Stichwort.
Illustriert wird das Problem durch das Beispiel einer Schweizer Firma, die eine öffentliche E-Mail Adresse für Kundenservice zur Verfügung stellt. Um die vielen Kundenanfragen bewältigen zu können, fordert sie eine automatisierte E-Mail Kategorisierung, damit die Nachrichten an die dafür zuständigen Stellen weitergeleitet werden können. Auf diese Weise wird erhofft, die Antwortzeiten zu verkürzen und gleichzeitig Kosten zu reduzieren. Da der Standort in der Schweiz ist, kann der geschäftliche E-Mail Verkehr in Deutsch, Englisch, Italienisch wie auch in Französisch stattfinden. Deshalb soll der Klassifizierer mit diesen Sprachen umgehen können.
In dieser Bachelor Arbeit wurde eine Software entwickelt, die die obenstehenden Anforderungen in Angriff nimmt. Für den Klassifizierungsprozess wird eine Multiclass Support Vector Machine verwendet. Sie gehört zu den intelligenten Systemen, die Modelle eigenständig lernen können. Einzige Voraussetzung für den Lernprozess ist das Vorhandensein von vorkategorisierten E-Mail Daten.
Im Lernprozess müssen die optimalen Parameter der Maschine mittels einem Validationsverfahren eruiert werden. Anschliessend kann mit diesen Einstellungen ein finales Training gestartet werden, welches am Schluss eine voll funktionsfähige Maschine zur Verfügung stellt. Das Ausfüh- ren sowie die Spezifikation des Trainingsvorgangs soll mittels einem GUI konfigurierbar gemacht werden.
Ist eine Maschine trainiert worden, kann sie Eingabedaten selbstständig den ihr bekannten Kategorien zuordnen. Die Maschine verhält sich hierbei passiv, da sie nur probabilistische Aussagen treffen kann.
Als Erweiterung können auch mehrere Klassifizierer hintereinander geschaltet werden. Dies ist zum Beispiel nützlich, wenn eine feingranulare Aufteilung nötig ist. So könnte beispielsweise in erster Instanz ein Spamfilter trainiert werden, der nur die beiden Kategorien “Spam“ und “nicht-Spam“ kennt. Erst wenn klar ist, dass es sich bei der Nachricht nicht um Spam handelt, beginnt die eigentliche Zuteilung. Der Entscheidungsweg kann grafisch dargestellt werden, damit gut nachvollzogen werden kann wie man auf das Resultat gekommen ist.

Item Type: Thesis (Bachelor)
Subjects: Area of Application > Industry
Area of Application > Data Mining
Metatags > INS (Institute for Networked Solutions)
Divisions: Bachelor of Science FHO in Informatik > Bachelor Thesis
Depositing User: OST Deposit User
Contributors:
Contribution
Name
Email
Thesis advisor
Schärer, Rolf
UNSPECIFIED
Thesis advisor
Michael, Jakob
UNSPECIFIED
Date Deposited: 23 Jul 2013 10:49
Last Modified: 10 Sep 2013 08:03
URI: https://eprints.ost.ch/id/eprint/314

Actions (login required)

View Item
View Item