Studie zur Erkennung von Phonemen

Baumann, Claude and Schönenberger, Rolf (2011) Studie zur Erkennung von Phonemen. Student Research Project thesis, HSR Hochschule für Technik Rapperswil.

[thumbnail of Studie_zur_Erkennung_von_Phonemen.pdf]
Preview
PDF
Studie_zur_Erkennung_von_Phonemen.pdf - Supplemental Material

Download (266kB) | Preview
  • PDF
    Dokumentation_-_Eprints.pdf - Supplemental Material

Abstract

Für die Interaktion zwischen Mensch und Maschine stellt die Erkennung von Phonemen ein fundamentales Problem dar. Trotz grosser Anstrengungen sind auch heute nur verhältnismässig schlechte Verfahren bekannt. Heutige Methoden zur Spracherkennung funktionieren nur, weil der Alltags-Wortschatz stark beschränkt wird und viele Übergänge zwischen Phonemen äusserst unwahrscheinlich sind. Eine statistische Vorgehensweise mittels Hidden Markov Models führt dann zur gewünschten Zuverlässigkeit der Spracherkennung, obwohl die einzelnen Phoneme schlecht erkannt werden.
In unserer Studie untersuchen wir, wieso die Erkennung von Phonemen dem Computer so grosse Schwierigkeiten bereitet. Wir untersuchen in geeigneten Räumen der Lautdarstellung, wo sich darin die Träger der Phoneme befinden. Bezüglich der Phoneme setzen wir das Hauptaugenmerk auf die Familie der Frikative, da diese die schlechtesten Ergebnisse bei der Erkennung liefern.
Als Darstellungsraum haben wir einführend den Fourierraum mit dem Raum der Wavelets als Basis verglichen. Wir haben festgestellt, dass sich in der Fourierdarstellung durchaus gewisse Muster erkennen lassen, welche für das Phonem charakteristisch sind. Diese reichen allerdings für eine Klassifizierung nicht aus, weshalb die Waveletdarstellungen vorzuziehen sind.
Als Klassifizierungsverfahren haben wir alternativ Clustering und Ansätze einfacher neuronaler Netze verfolgt. Als einfaches Neuron haben wir das sogenannte holographische Neuron verwendet, welches in den Räumen der komplexen Zahlen arbeitet. Obwohl es für seine Effizienz bekannt ist, konnte es auch nach Tagen des Lernens nicht mehr als eine durchschnittliche Erkennungsrate von rund 20 Prozent erreichen.
Während herkömmliche Clusteringverfahren wie k-Means daran scheitern, korrekte Cluster für Phoneme zu finden oder unbekannte Phoneme einzuordnen, erreicht das Hebbian Learning Clustering Verfahren dies mit einer durchschnittlichen Erkennungsrate von mehr als 60 Prozent, ohne dass dabei zu grosse Phonem-Gruppen gebildet werden müssen. Damit wurden vergleichbare Ansätze der Literatur wesentlich übertroffen, was ein Ziel dieser Arbeit war. Die Erkennungsrate kann dabei durch eine Verbesserung der Waveletdarstellung optimiert werden.

Item Type: Thesis (Student Research Project)
Subjects: Topics > Internet Technologies and Applications > Voice Recognition
Topics > Communication Systems
Metatags > ITA (Institute for Internet Technologies and Applications)
Divisions: Bachelor of Science FHO in Informatik > Student Research Project
Depositing User: OST Deposit User
Contributors:
Contribution
Name
Email
Thesis advisor
Stoop, Ruedi
UNSPECIFIED
Date Deposited: 24 Jul 2012 07:57
Last Modified: 24 Jul 2012 09:35
URI: https://eprints.ost.ch/id/eprint/172

Actions (login required)

View Item
View Item