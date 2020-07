Wie werden die Daten eigentlich analysiert? Arbeiten sie mit Linguisten oder setzen sie wie Google auf riesige Rechenpower und Algorithmen?

Die Spracherkennungsmodelle werden aus den gesammelten Daten auf einer großen Rechnerfarm trainiert. Für manche Bereiche des Systems benutzen wir auch Linguisten. Neben Sprachaufnahmen gehören zum Beispiel Lexika zu den Trainingsdaten. Sie enthalten Informationen darüber aus welchen Phonemen jeweils ein Wort zusammengesetzt ist.

Wie werden Akzente berücksichtigt? Diese galten lange Zeit als große Hürde bei der Spracherkennung.

Akzente beeinflussen die Wortwahl und Aussprache, weil Sprachlaute ausgewechselt werden oder sich ein Sprachlaut verschiebt. Unsere Lexika enthalten die typischen Aussprachevarianten und die statistische Modellierung der Sprachlaute deckt die Varianten der verschiedenen Sprachlaute ab.

Wie sieht es mit Leuten aus, deren Muttersprache eine andere als die Eingabesprache ist? Wird dies auch problemlos erkannt?

Das System ist hauptsächlich auf Benutzer eingestimmt, für die die Eingabesprache die Muttersprache ist. Aber wenn der Akzent nicht zu stark ist, funktioniert es auch für fremdsprachliche Benutzer.

Zu Österreich: Werden alle Bundesländer und Dialekte gesampelt? Vorarlberger reden anders als Wiener. Wird Hochdeutsch und Dialekt erfasst?

Sobald wir offiziell Österreich unterstützen, wird das anhand von Daten für Hochdeutsch von ganz Österreich sein.

Sprechen die User mit dem Gerät so, als ob es ein Mensch wäre. Oder wirft man dem Gerät nur Schlagworte hin?

Die Befehle werden meist in Hochdeutsch gesprochen und das Interaktionsprinzip basiert auf ‚Sehen Sie es, dann sagen Sie es`. Nachdem der Benutzer den Befehl „ Xbox" gesagt hat, wird von dem System auf dem Bildschirm angezeigt, welche Befehle zur Verfügung stehen. Wenn man mit dem System vertraut ist, kann man auch direkt das Ganze in einem Zug sagen, also „ Xbox Musik". Im Vergleich zu anderen Systemen gibt es keinen Knopf, den man erst drücken muss, damit das System zur Spracheingabe bereit ist. Das heißt, der Sprach-Erkenner muss zwischen normaler Unterhaltung und den Befehlen, die an das System gestellt werden, ständig unterscheiden.