Spracherkennung

Google: "Dänisch ist eine schreckliche Sprache"

27.12.2013

Pedro Moreno leitet bei Google die Sprachsteuerung und -erkennung bei Android. Mit der futurezone sprach er über das Smartphone als Butler und warum Dänisch schrecklich ist.

Dieser Artikel ist älter als ein Jahr!

Microsoft forscht seit Jahren an Sprachsteuerung; Amazon und Facebook haben dieses Jahr Firmen aus diesem Bereich aufgekauft. Warum steht Spracherkennung auf einmal so im Zentrum?
Pedro Moreno: Ich selbst finde das eine interessante Entwicklung. Ich forsche seit über zwanzig Jahren an Sprachsystemen. Es gab einen wissenschaftlichen Diskurs und viel Forschung. Bis vor drei Jahren hat sich aber kaum jemand dafür interessiert. Es war ein Nischenthema, von dem niemand so recht glaubte, dass es einen breiten Nutzen hat.

Was hat sich verändert?
Es gab eine radikale Änderung. Als Sprachwissenschaftler könnte ich Ihnen nun von tollen neuen Algorithmen erzählen, die wir erfunden haben oder von wichtigen Fortschritten bei akustischer Modellierung anhand neuronaler Netzwerke. Die Realität ist banaler. Einerseits ist mehr Rechenleistung verfügbar. Andererseits haben wir mehr digitale Daten, die wir analysieren können. Die zwei Faktoren haben dazu geführt, dass die Erkennungsrate deutlich gestiegen ist.

Wie kann man sich das vorstellen?
Wir haben Tausende Computer, mit denen wir Modelle an über 5000 Stunden Audiomaterial erproben. Jeden Tag verarbeiten wir zehn Jahre an Audiomaterial. Das sind riesige Datenmengen. Mit dieser Infrastruktur können wir unsere Software trainieren und weiterentwickeln. Erinnern Sie sich an den Computer in Star Trek, der die Besatzung ganz natürlich versteht? Das ist in greifbarer Nähe. Hinzu kommt, dass Tippen am Smartphone mühsam ist und gesprochene Befehle viel mehr Sinn machen. Je mehr Leute es verwenden, desto schneller erfüllt sich der Traum von einer Maschine, mit der man eine Konversation führen kann.

Pedro J. Moreno leitet bei Google das Sprachsteuerungs- und -erkennungsteam für Android. Er forscht seit 20 Jahren zu Spracherkennung.
© Esther Horvath

Warum wird es besser, wenn mehr Leute es benutzen?
Mit Smartphones ist es möglich, Sprachproben aus aller Welt zu sammeln und anhand der Nutzungsstatistiken zu untersuchen, was funktioniert. Dies ermöglicht riesige Feldversuche und quantitative Untersuchungen.

Sind Sie hier gegenüber anderen Firmen im Vorteil? Google hat ja Milliarden Nutzer.
Es hilft, dass Android das am meisten verbreitete System auf Smartphones ist. Hinzu kommt, und das ist noch wichtiger, dass wir auf Nutzungsdaten der textbasierten Suche zurückgreifen können. Wir sehen, wie Leute suchen und können die Erkenntnisse in unser Spracherkennungssystem einbauen.

Ändert sich durch die stärkere Integration der Sprachsteuerung das Suchverhalten der Nutzer?
Wir sehen bei jeder Sprache ein wiederkehrendes Muster. Zuerst werfen Menschen dem Handy Schlagworte hin. Nach und nach verwenden sie das System, um kurze Nachrichten zu diktieren. Danach werden längere eMails gesprochen bis sie schließlich bei der Internet-Suche auf natürliche Sätze umschwenken. Anstatt von Roboter-Deutsch wird eine echte Frage an Google formuliert. Aus ‚Restaurant Chinesisch Innenstadt‘ wird ‚Wo gibt es in der Innenstadt ein gutes China-Restaurant?‘. So entwickelt sich eine Konversation und Google wird mehr als Butler, denn als Suchmaschine wahrgenommen.

Welche neuen Herausforderungen bringt das mit sich?
Je mehr es sich zu einer Konversation entwickelt, desto wichtiger wird das Erkennen von Pronomen. Bis dato verfeinerten Nutzer bei der Textsuche die Ergebnisse, indem sie ein weiteres Schlagwort dazu tippten. Sie beginnen mit der Suchanfrage ‚Wie heißt die Frau von Barack Obama?‘. Wenn sie noch wissen wollen, wie alt seine Frau ist, werden sie ‚Alter‘ dazu tippen. Bei einem Gespräch mit Google wird die zweite Frage jedoch ‚Und wie alt ist sie?‘ lauten. Unsere Aufgabe ist, zu erkennen, wer ‚sie‘ ist, worauf sich das ‚sie‘ bezieht.

Wie lösen Sie dieses Problem?
Wir müssen dazu die Such-Chronik und das Surfverhalten des Nutzer miteinbeziehen. Dadurch bekommen wir den relevanten Kontext, um festzustellen, was gemeint ist. Der Kontext ist der Schlüssel zur Spracherkennung. Zu wissen, wer der Nutzer ist, wo er ist, ist entscheidend.

Wurde deshalb auch jüngst der grundlegende Suchalgorithmus von Google umgestellt? Dieser ist nun auf Suchanfragen in natürlicher Sprache ausgerichtet.
Dieser Schritt war eine natürliche Entwicklung, weil sich die Suche, auch durch den verstärkten Einsatz von Sprache, in diese Richtung bewegt. Das Such-Team arbeitet nun auch enger mit dem Sprach-Team zusammen.

Gibt es Kooperationen mit anderen Google-Abteilungen?
Jede Google-Abteilung, die Daten sammelt und verwaltet, hat eine Schnittstelle. Diese steht intern allen anderen Abteilungen zur Verfügung, damit man diese Daten unter Einhaltung diverser Datenschutzvorgaben weiterverarbeiten kann. Wir nutzen beispielsweise Google Books, das Hundertausende Bücher einscannt. Daraus lassen sich Daten für ein besseres Sprachverständnis gewinnen.

Was sind aktuell große Herausforderungen?
Es gibt unzählige Mehrdeutigkeiten, die es zu erkennen gilt. Das mag banal klingen, aber Punktation ist knifflig. So ist es schwierig zu unterscheiden, ob jemand beim Diktieren das Satzzeichen Punkt oder das Wort Punkt meint. Auch der Tonfall verleiht oftmals eine andere Bedeutung. In vielen asiatischen Sprachen gibt es auch kein Leerzeichen. Hier müssen wir erkennen, wo ein Wort aufhört und das nächste anfängt. Eine Herausforderung sind auch Sprachen, die in Schriftform auf viele diakritische Zeichen setzen. Vietnamesen verwenden etwa diese Zeichen bei schriftlichen Suchanfragen nicht. Da wir auf getippte Google-Suchanfragen aufbauen, stehen wir vor einem Dilemma, da uns die Diakritika fehlen. Dadurch wird alles verfälscht, weshalb eine Autokorrektur bei der vietnamesischen Suchmaschine eingebaut wurde.

Wie weiß die Software eigentlich, ob sie gerade angesprochen wird, oder ob es sich um eine Konversationen zwischen zwei Menschen handelt?
Aktuell wird das über ein Code-Wort gelöst. Das System lauscht, bis es dieses Stichwort hört und weiß dann, dass es angesprochen wird. Die Analyse vergangener Suchanfragen hilft uns bei der Erkennung. Wenn sie viele Anfragen zu Fußball stellen, hilft das bei Unklarheiten. Durch Personalisierung kann das System auch besser mit Akzenten umgehen. Es trainiert sich dann auf meine Aussprache und kann mein Englisch verstehen, obwohl ich gebürtiger Spanier bin.

Wie schaut es mit Akzenten und Dialekten aus?
Das stellt für uns nicht so ein großes Problem dar, weil wir ja auf die geschriebenen Suchanfragen zurückgreifen. Wir wissen also, dass gewisse Gegenstände in Deutsch anders heißen als in Österreichisch. Ein gutes Beispiel ist auch Arabisch. Hier gibt es Modern Standard Arabic, was ich als „TV-Moderatoren-Arabisch“ bezeichne. Das versteht jeder, im Alltag verwendet es keiner. Daher haben wir unseren Schwerpunkt nicht auf MSA, sondern auf die unzähligen arabischen Dialekte gesetzt – weil das eben die Leute verwenden.

Wie gehen sie mit Schimpfwörtern um?
Wir diskutieren das intern sehr oft und haben uns auf eine Regel geeinigt: Wenn jemand ein Schimpfwort sagt, wollen wir es erkennen und transkribieren. Es ist das beste Training, weil Menschen bei Schimpfwörtern sehr kreativ sind und sich die Wörter ständig ändern. Ich kann ihnen garantieren, Schimpfwörter verstehen wir sehr gut. Bei der Darstellung zensieren wir es dann aber mit Sternchen. Der Nutzer muss dann die Sternchen ausblenden, um es zu sehen.

Wie kann man sich Ihre Arbeit vorstellen. Wie gehen Sie vor, wenn Sie sich einer Sprache widmen?
Wir schicken Sprachwissenschaftler in ein Land. Dieses „Data Operations Team“ sammelt vor Ort Audio-Aufnahmen von vorgegebenen Worten, Phrasen und Sätzen. Innerhalb einer Woche sammeln sie hundert Stunden an Audio-Beispielen. Diese bilden dann die Basis, anhand der wir unsere Software trainieren und verbessern. Gerade eben haben wir die Aufnahmen in Thailand und Indien abgeschlossen. Aktuell haben wir fünfzig Sprachen in Vorbereitung oder in der Fertigstellung.

Wie bauen Sie die Sprachen für den Computer zusammen?
Es gibt drei Faktoren, die eng miteinander verwoben sind: das akustische Modell, das Sprachenmodell und das Lexikon-Modell. Das akustische Modell bauen wir anhand von gesammelten Audio-Daten. Hier werden die Schallwellen Sequenzen von Phonemen zugeordnet. Das Sprachenmodell, also wie Menschen die Sprache verwenden, können wir von der textbasierten Nutzung der Suchmaschine ableiten. Am schwierigsten ist das Lexikon-Modell. Das besteht aus einer Reihe von Phonemen, woraus sich dann Wörter ableiten.

Worin besteht hier die Herausforderung?
Das hängt von der Regelmäßigkeit der Sprache ab. Suaheli ist eine sehr regelmäßige Sprache. Mit 50 Regeln hat man ein gutes Betonungslexikon. Dem gegenüber steht Dänisch, das eine schreckliche Sprache ist. Das ist sehr kompliziert, weshalb man besser beraten ist, Modelle von wissenschaftlichen Forschungseinrichtungen zu kaufen. Hat man dann diese drei Faktoren ausreichend berücksichtigt, kann man eine Sprache starten. Es ist nicht perfekt, durch die Nutzungsdaten kann es aber trainiert werden. Jede zweite Woche analysieren wir die Daten und passen das akustische und Sprachenmodell an.

Wie wählen Sie aus, welche Sprache als nächstes für die Erkennung optimiert wird?
Es gibt über 3000 Sprachen. Natürlich wäre es optimal, jede davon zu digitalisieren. Da wir ein Unternehmen sind, unterliegen solche Entscheidungen aber einer Kosten-Nutzen-Rechnung. Es kommen immer nur Sprachen in Frage, die viele Menschen sprechen und in der es viele Internet-Inhalte gibt. Wir sind ein auf Suche ausgerichtetes Unternehmen. Wenn es kaum Web-Inhalte in einer Sprache gibt, macht es keinen Sinn, diese per Sprache durchsuchbar zu machen.

Wie viele Sprachen wird Google schlussendlich erfassen?
Unser Ziel ist, 300 Sprachen für einen Computer erkenn- und verwendbar zu machen. Damit sollten wir 99 Prozent abdecken. Alles darüber hinaus wird schwierig, denn die Erkennung wird nur besser und akkurater, wenn es von vielen Leuten benutzt wird.

Kommentare