© Microsoft

Interview

Spracherkennung: Xbox soll Apples Siri schlagen

futurezone: Seit kurzem können Besitzer einer Xbox in Österreich ein Programm laden, das der Konsole Sprache beibringt. Ist das Siri für die Konsole?
Heiko Rahmel: Nein. Voice Studio ist ein Werkzeug, das unsere Spracherkennung verbessert. Jeden der Interesse daran hat, dass seine Sprache auf der Xbox in Zukunft unterstützt wird, kann das Programm benutzen, um so gute Daten zur Verfügung zu stellen.

Sie versuchen also über Crowd Sourcing Sprach-Samples zu sammeln. Wie viele Sprachschnipsel umfasst die Sprachdatenbank schon? Google hat ja an die 15 Millionen Wörter.
Ich kann hier keine genauen Angaben machen, aber die Datenbank ist sehr groß und wird immer größer.

Verwenden sie bei der Erfassung, Analyse und Umsetzung eine eigene Software oder greifen sie auf das Know-How von Nuance, auf das Apple und Samsung setzt, zurück?
Wir haben unseren eigenen Sprach-Erkenner, der schon seit vielen Jahren bei Microsoft entwickelt wird und bei einer ganzen Reihe von Produkten zum Einsatz kommt.

Die Ergebnisse werden also konzernweit genutzt?
Ja. Die Spracherkennungs- und Suchtechnologie wird in ähnlicher Weise auf Windows Phone zur Bing Sprachsuche verwendet.

Setzen sie bei der Spracherkennung auf Hardware in der Konsole oder greifen sie auf Cloud-Resourcen, wie bei Siri, zurück?
Sowohl, als auch. Für einfache Befehle wie ‚Xbox abspielen` oder ‚Xbox Musik` erfolgt die Erkennung auf der Konsole. Für die in den USA, Kanada und England vorhandene Bing-Suchfunktion wie etwa „Xbox Bing Harry Potter" erfolgt die Erkennung in der Cloud.

Werden weitere Sensoren und Kameras von Kinect miteinbezogen, um Sprache durch Kontextualisierung besser zu verstehen?
Spiele können die von der Kinect-Kamera bestimmte Position des Benutzers verwenden, um die Mikrophone nur auf den Benutzer zu fokussieren. Zudem adaptiert sich das System auf die Sound-Charakteristik des Umfelds.

Gerade in Spielen ist schnelle Eingabe extrem wichtig? Wie garantiert man, dass Sprachanweisungen nicht verzögert umgesetzt werden? Bei Mass Effect 3 wurde der große Lag kritisiert.
Der Sprach-Erkenner bearbeitet das Sprachsignal in Echtzeit. Um sicher zu sein, dass der Benutzer den Befehl abgeschlossen hat, muss das System etwas warten. Sonst könnten Pausen zwischen den Worten dazu führen, dass die Erkennung zu früh abbricht.

Wie werden die Daten eigentlich analysiert? Arbeiten sie mit Linguisten oder setzen sie wie Google auf riesige Rechenpower und Algorithmen?
Die Spracherkennungsmodelle werden aus den gesammelten Daten auf einer großen Rechnerfarm trainiert. Für manche Bereiche des Systems benutzen wir auch Linguisten. Neben Sprachaufnahmen gehören zum Beispiel Lexika zu den Trainingsdaten. Sie enthalten Informationen darüber aus welchen Phonemen jeweils ein Wort zusammengesetzt ist.

Wie werden Akzente berücksichtigt? Diese galten lange Zeit als große Hürde bei der Spracherkennung.
Akzente beeinflussen die Wortwahl und Aussprache, weil Sprachlaute ausgewechselt werden oder sich ein Sprachlaut verschiebt. Unsere Lexika enthalten die typischen Aussprachevarianten und die statistische  Modellierung der Sprachlaute deckt die Varianten der verschiedenen Sprachlaute ab.

Wie sieht es mit Leuten aus, deren Muttersprache eine andere als die Eingabesprache ist? Wird dies auch problemlos erkannt?
Das System ist hauptsächlich auf Benutzer eingestimmt, für die die Eingabesprache die Muttersprache ist. Aber wenn der Akzent nicht zu stark ist, funktioniert es auch für fremdsprachliche Benutzer.

Zu Österreich: Werden alle Bundesländer und Dialekte gesampelt? Vorarlberger reden anders als Wiener. Wird Hochdeutsch und Dialekt erfasst?
Sobald wir offiziell Österreich unterstützen, wird das anhand von Daten für Hochdeutsch von ganz Österreich sein.

Sprechen die User mit dem Gerät so, als ob es ein Mensch wäre. Oder wirft man dem Gerät nur Schlagworte hin?
Die Befehle werden meist in Hochdeutsch gesprochen und das Interaktionsprinzip basiert auf ‚Sehen Sie es, dann sagen Sie es`. Nachdem der Benutzer den Befehl „Xbox" gesagt hat, wird von dem System auf dem Bildschirm angezeigt, welche Befehle zur Verfügung stehen. Wenn man mit dem System vertraut ist, kann man auch direkt das Ganze in einem Zug sagen, also „Xbox Musik". Im Vergleich zu anderen Systemen gibt es keinen Knopf, den man erst drücken muss, damit das System zur Spracheingabe bereit ist. Das heißt, der Sprach-Erkenner muss zwischen normaler Unterhaltung und den Befehlen, die an das System gestellt werden, ständig unterscheiden.

Welche Befehle werden besonders häufig verwendet?
Das kommt ganz auf die Applikation an. Beim Abspielen von Filmen oder Musik ist die Sprachsteuerung beispielsweise besonders populär. Also ‚Xbox Pause`, damit man sich mal eben etwas vom Kühlschrank holen kann, ohne erst nach der Fernbedienung zu suchen. Und ‚Xbox abspielen`, um weiterzuschauen. Ich benutze das selber ganz häufig.

Werden bestimmte Begriffe zensiert? Wie gesehen sie mit Schimpfworten um?
Das Dashboard und die Applikationen bestimmen, welche Befehle von dem System erkannt werden. Schimpfwörter werden dort nicht unterstützt, weil das wenig Sinn macht. Wenn ein Benutzer etwas sagt, das von dem System nicht erwartet wird, ignoriert es dies in der Regel. Im Prinzip kann ein Spielentwickler allerdings entscheiden, dass so etwas im Rahmen des Spiels erkannt werden soll. Der Sprach-Erkenner ist dazu durchaus in der Lage. Die in den USA und England vorhandene Bing Sprachsuche nach Spielen, Musik oder Filmen und TV Shows erkennt Schimpfwörter. Allerdings werden sie mit Sternchen versehen angezeigt, etwa s***. Je nach Einstellung des Jugendschutzes auf der Konsole werden dann die angemessenen Suchergebnisse angezeigt.

Gibt es bei der Erfassung Unterschiede bei Alter und Geschlecht?
Die Datensammlung von jüngeren Kinder ist eine Herausforderung. Es ist nicht leicht ein Kind dazu zu motivieren, sich 30 Minuten lang auf eine Sprachdatensammlung zu konzentrieren. Da muss man halt mal ab und zu eine Pause machen und viel Geduld haben.

Haben sie im Zuge des Projekts Besonderheiten oder Kurioses entdeckt? Sprache ist ja sehr komplex und vielschichtig.
Was ich am interessantesten finde, ist, wie Kinder diese Technologie als selbstverständlich akzeptieren und wie schnell sie die Erwartung entwickeln, dass alles so funktionieren soll. Meine Tochter hat vor einiger Zeit versucht, bei Bekannten einen Film mit ‚Xbox Pause` anzuhalten. Nach ein paar Versuchen meinte sie zu mir: ‚Papa kannst Du das mal probieren, es funktioniert nicht`. Was nicht so überraschend war, da es ein Fernseher ohne Xbox war. Aber für sie sollte das eben überall funktionieren.

Mehr zum Thema

  • iTranslate Voice übersetzt gesprochene Sprache
  • Autos werden künftig mit Sprache gesteuert
  • Siri-Konkurrent Evi im Test
  • Spracherkennung: Apple legt sich mit Google an
  • Im Test: Mass Effect 3 mit Sprachsteuerung

Hat dir der Artikel gefallen? Jetzt teilen!

Benjamin Sterbenz

mehr lesen
Benjamin Sterbenz

Kommentare