Direkte Links und Access Keys:

23. Oktober 2010, Neue Zürcher Zeitung / NZZexecutive

Spracherkennung – Modelle für die akustische Vielfalt

Errungenschaften der Technik

Daniel Meierhans

Die Natur ist keine statistische Maschine. Das zeigt sich unter anderem im Aufwand, der notwendig ist, um die menschliche Sprache mit Hilfe von statistischen Methoden automatisch erkennen und interpretieren zu können.

Das Problem: Unsere Sprache ist ein bis auf den einzelnen Menschen hinunter verästeltes System, das sich in dauernder Veränderung befindet. Die gegen 7000 derzeit unterschiedenen Einzelsprachen der Menschheit splitten sich in ein Vielfaches von Dialekten auf, von denen wieder jeder individuell anders angewendet wird. Die Entscheidung, welcher Ausdruck in einem bestimmten Moment wie verwendet und ausgesprochen wird, ist von einer Vielzahl von verknüpften Faktoren abhängig, die alle selber laufend variieren. Für eine Maschine ist diese lebendige Vielfalt umso schwieriger zu entziffern, als es für die Laute einer Sprache keine eindeutigen, akustischen Merkmale gibt. Auch wenn wir zweimal das Gleiche sagen, ist das resultierende Sprachsignal nicht gleich, sondern bloss ähnlich. Dazu kommen viele Wörter, die zwar praktisch gleich tönen, aber eine unterschiedliche Bedeutung haben.

Anzeige:

Mustervergleichs-Versuche

Die ersten Computer waren wegen ihrer geringen Rechenleistung und Speicherkapazität von dieser Komplexität noch schlicht überfordert. In den 1960er Jahren konnten Spracherkennungssysteme selbst unter kontrollierten Bedingungen nur einige Dutzend Einzelwörter unterscheiden. Da keine adäquaten Modell-Beschreibungen für gesprochene Wörter zur Verfügung standen, basierten diese Systeme noch auf Mustervergleichen. Dabei musste für jedes Wort, das später erkannt werden sollte, ein Muster abgespeichert werden. Für die Erkennung verglich der Rechner das gesprochene Wort mit allen gespeicherten Beispielen und wählte das ähnlichste. Zusätzlich zum Nachteil des begrenzten Wortschatzes ist ein solcher Spracherkenner in der Praxis auch auf einen Benutzer beschränkt, denn bereits die Aussprachedifferenzen zwischen zwei Menschen führen häufig zu Verwechslungen.

Statistische Methoden

Ab den 1980er Jahren setzten sich die noch heute verwendeten, statistischen Ansätze durch. Die akustische Vielfalt der Laute wird dabei durch sogenannte Hidden-Markov-Modelle spezifiziert. Diese berücksichtigen in ihren Berechnungen die gegenseitigen Abhängigkeiten von Lautkombinationen, um das wahrscheinlichste der möglicherweise hinter dem akustischen Signal verborgenen Wörter zu finden. Zusammenhängend gesprochene Sätze werden mit Hilfe von Wortfolgestatistiken analysiert. 1994 erregte der US-Konzern IBM auf der Computermesse Cebit in Hannover grosses Aufsehen mit einem ersten, auf statistischen Methoden beruhenden PC-Diktiersystem. Trotz einer verhältnismässig hohen Trefferrate von 95 Prozent konnte sich das IBM Personal Dictation System im Markt aber nicht breit durchsetzen. Der Aufwand für die Fehlerkorrekturen überwog noch immer den Vorteil der bequemen Spracheingabe.

Dass heute für zahlreiche Anwendungsgebiete – von der Maschinensteuerung bis zur Bedienung der Autoelektronik oder von Mobiltelefonen – brauchbare Spracherkenner zur Verfügung stehen, ist nicht zuletzt der enormen Leistungssteigerung der Computerhardware zu verdanken. Sie ermöglicht im Zusammenspiel mit einer laufenden Verfeinerung der Methoden eine kontinuierliche Verbesserung der Erkennungsleistung. Immer komplexere statistische Modelle können zur Beschreibung der Sprache herangezogen und immer grössere Datenmengen für das Training der Modelle eingesetzt werden.

Wird nie perfekt sein

Eine wirklich gute Erkennungsleistung erreichen jedoch auch die heutigen Spracherkenner erst dann, wenn sie an die spezifische Anwendung angepasst und auf die Stimme des Benutzers eingeübt sind. Dazu müssen jedoch nicht mehr alle zu erkennenden Wörter vorgesprochen werden. Es genügen einige Beispielsätze. Perfekt wird die maschinelle Spracherkennung aber auch mit noch so viel Training und noch so leistungsfähigen Rechnern nie werden. Das liegt jedoch je länger, je weniger an den Unzulänglichkeiten der statistischen Modelle oder an der «Dummheit» der Computer, sondern mehr an der Tatsache, dass Missverständnisse ein fester Bestandteil unserer zwischenmenschlichen Kommunikation sind.


Copyright © Neue Zürcher Zeitung AG
Alle Rechte vorbehalten. Eine Weiterverarbeitung, Wiederveröffentlichung oder dauerhafte Speicherung zu gewerblichen oder anderen Zwecken ohne vorherige ausdrückliche Erlaubnis von NZZ Online ist nicht gestattet.

Keine Leserkommentare

 

Wenn Sie diesen Artikel kommentieren möchten, melden Sie sich bitte mit Ihrem MyNZZ-Benutzernamen an. Diese Funktion ist an Wochenenden und Feiertagen gesperrt.

Artikel weiterleiten

Spracherkennung – Modelle für die akustische Vielfalt

Errungenschaften der Technik

Die Natur ist keine statistische Maschine. Das zeigt sich unter anderem im Aufwand, der notwendig ist, um die menschliche Sprache mit Hilfe von statistischen Methoden automatisch...

Artikel versenden als E-Mail:

Sie müssen in Ihrem Browser Cookies aktivieren, um dieses Formular zu verwenden.

Sicherheitscode

Bitte übertragen Sie den Sicherheitscode in das folgende Feld:

* Pflichtfeld

NZZexecutive: Jobsuche

Stellen für Kader und Fachspezialisten

Hier die Angebote aus Print und Online abrufen.


Stichwort: 

NZZ EXECUTIVE: Jobs für Ingenieure

Jobs im Ingenieurwesen

NZZ-Korrespondentenwelt: Schweden

Arbeiten in Schweden - Von der Schwierigkeit, nicht in Pension zu gehen

Arbeitsrecht: Lohnrückforderung

Arbeitskraft: Die Garderobe

Wortgut: Führen

Wortgut - Grosser Markt für Management-Weiterbildung

Forschung: Knowledge-Hiding

Aus der HRM-Forschung - Produktivitätsbremse Knowledge-Hiding