Willimann, Quentin (2013) Text Mining. Bachelor thesis, HSR Hochschule für Technik Rapperswil.
text_mining.pdf - Supplemental Material
Download (2MB) | Preview
Abstract
Text Mining hat die Aufgabe, nicht-triviales und verwertbares Wissen, sowie Beziehungen zwischen Texten und Textfragmenten zu entdecken. Mehrere Fachrichtungen sind dabei zu berücksichtigen: Informations Retrieval, Data Mining, Maschinelles Lernen, Statistik und Computerlinguistik. Diese Begriffe werden erklärt und deren Zusammenhang mit Text Mining wird aufgezeigt. In dieser Bachelorarbeit werden anhand von Klassifizierungsproblemen und der automatischen Generierung von Zusammenfassung die Prozessschritte eruiert. Folgende Schritte werden erarbeitet und dokumentiert:
1. Preprocessing (Tokenisierung, Stemming, Vector-Space-Modelling)
2. Postprocessing (Dimension Reduktion)
3. Clustering (K-Means)
4. Classification
5. Evaluation (Cosine Similarity, Accuracy)
Nebst den herkömmlichen Algorithmen werden die Resultate mittels linguistischen Methoden verbessert, wie POS Tagging, Synonyme und Hyperonyme. Diese Bachelorarbeit beschreibt einen Algorithmus zur Klassifizierung von Texten und einen zur Generierung von Zusammenfassungen. Mit dem finalen Klassifikationsalgorithmus wird auf dem verwendeten Datensatz "newsgroups“ eine Exaktheit von rund 92.5% für zwei Klassen, 91.3% für drei und 83.5% für vier erreicht. Problematisch sind vor allem Klassen, die nahen zueinander liegen und sich je nachdem sogar überschneiden. Bei der automatischen Zusammenfassung liegt das Augenmerk beim Herausfinden der Themen, welche ein Dokument umfasst. Aus einem wissenschaftlichen Text werden Sätze selektiert, welche den Text möglichst gut zusammenfassen sollen. Diese extraktive Zusammenfassung wird dann mit Hilfe von Cosine Similarity mit dem verfügbaren Abstract verglichen. Dabei wird ein Bestwert von 0.7 erreicht
1. Preprocessing (Tokenisierung, Stemming, Vector-Space-Modelling)
2. Postprocessing (Dimension Reduktion)
3. Clustering (K-Means)
4. Classification
5. Evaluation (Cosine Similarity, Accuracy)
Nebst den herkömmlichen Algorithmen werden die Resultate mittels linguistischen Methoden verbessert, wie POS Tagging, Synonyme und Hyperonyme. Diese Bachelorarbeit beschreibt einen Algorithmus zur Klassifizierung von Texten und einen zur Generierung von Zusammenfassungen. Mit dem finalen Klassifikationsalgorithmus wird auf dem verwendeten Datensatz "newsgroups“ eine Exaktheit von rund 92.5% für zwei Klassen, 91.3% für drei und 83.5% für vier erreicht. Problematisch sind vor allem Klassen, die nahen zueinander liegen und sich je nachdem sogar überschneiden. Bei der automatischen Zusammenfassung liegt das Augenmerk beim Herausfinden
der Themen, welche ein Dokument umfasst. Aus einem wissenschaftlichen Text
werden Sätze selektiert, welche den Text möglichst gut zusammenfassen sollen.
Diese extraktive Zusammenfassung wird dann mit Hilfe von Cosine Similarity mit
dem verfügbaren Abstract verglichen. Dabei wird ein Bestwert von 0.7 erreicht
Item Type: | Thesis (Bachelor) |
---|---|
Subjects: | Area of Application > Data Mining Area of Application > Statistics Area of Application > Academic and Education Technologies > Programming Languages > Python Metatags > INS (Institute for Networked Solutions) |
Divisions: | Bachelor of Science FHO in Informatik > Bachelor Thesis |
Depositing User: | OST Deposit User |
Contributors: | Contribution Name Email Thesis advisor Huser, Hansjörg UNSPECIFIED |
Date Deposited: | 10 Apr 2014 07:15 |
Last Modified: | 10 Apr 2014 07:15 |
URI: | https://eprints.ost.ch/id/eprint/339 |