© Benjamin Sterbenz

Spracherkennung

"Sprache wird Tasten und Touch nicht ersetzen"

Intels Chef-Entwickler Mooly Eden hat vergangene Woche auf der CES gemeint, dass Sprache die Bedienung genauso revolutionieren wird, wie es Touchscreens getan haben. Ich nehme an, Sie stimmen zu?
Peter Mahoney: Sprache wird jetzt endlich so verlässlich, wie es etwa eine Geste am Touchscreen oder ein Mausklick ist. Dadurch werden gesprochene Befehle rasant ansteigen.  Der Umgang mit Computern wird sich weiter verändern. Gesten, die von Kameras erkannt werden, sind aber nicht minder wichtig sein. Entscheidend ist schlussendlich aber das Zusammenspiel aller Bedienkonzepte. Manches, das man jetzt mit den Fingern erledigt, wird man künftig ansagen, anderes ist effizienter mit der Hand zu erledigen. Hinzu kommt, dass man nicht in jeder Situation sprechen kann.

Die Lautstärke am TV wird also weiterhin mit einem einfachen Tastendruck erledigt?
Wichtig ist: Sprache wird Tasten, Touchscreens oder Gesten nie ersetzen, sondern sie ergänzen. Man muss alles anbieten, der Nutzer entscheidet dann, wie er interagiert. Künftig wird man sich keine Gedanken machen, auf welche Art man ein Gerät bedient. Man tut einfach, so wie es gerade passt und am einfachsten ist, und es wird funktionieren.

Sprechen Leute mit Geräten in natürlicher Form oder in abgehacktem Befehlston?
Das hängt vom Anwendungsgebiet ab. Im Auto sagen Lenker konkret eine Radiostation an oder eine anzurufende Person. Da der Fahrer in unmittelbarer Nähe aller Knöpfe und Bedienelemente sitzt, muss er vieles gar nicht via Sprache diktieren. Zu Hause, im Wohnzimmer ist die Interaktion natürlicher. Leute beginnen, mit dem TV wie mit einem Menschen zu sprechen.

Wie kann man sich das vorstellen?
Nehmen wir den Flat-TV. Oft denkt man bei Sprachbefehlen an Sätze wie ‚lauter` oder ‚leiser` oder ‚CNN`. Dass andere Fragen möglich sind, müssen Nutzer erst entdecken und erlernen. ‚Ich will das Spiel sehen` ist etwa ein Beispiel. Die Software versteht den Satz, schlussfolgert aus dem Kontext, dass sie das Champions-League-Match sehen wollen und wechselt zum passenden Kanal.

Woher weiß die Software, was genau gemeint ist?
Einerseits müssen die Wörter erkannt werden. Für deren Interpretation werden dann die Uhrzeit und das TV-Programm miteinbezogen. Läuft das Match etwa auf zwei Kanälen, fragt die Software nach, welchen man bevorzugt. Nutzer begrüßen es sogar, wenn die Software bei Unklarheiten nachfragt. Dieses Nachhaken macht den Prozess natürlicher und zeigt, dass man mit einer Intelligenz spricht. Dadurch wird das Programm von Nutzern ernster genommen und es entsteht ein Dialog.

Gibt es hier anfängliche Berührungsängste. Immerhin redet man mit Elektronik?
Das verschwindet nach und nach. Seitdem die Technik immer bessert versteht, was gemeint ist, desto normaler wird sie angesprochen. Wir bauen Hemmschwellen auch aktiv ab, indem wir der Software eine Persönlichkeit geben.

Sie gaukeln dem Nutzer also einen Menschen vor?
In gewisser Weise. Wir haben Hollywood-Drehbuchautoren engagiert, die unterschiedliche Charaktertypen entworfen haben. Sie haben definiert, wie die Software und deren Stimme in gewissen Situationen reagiert. Manche sind witzig, manche gesprächig, andere seriös. Dieser menschliche Aspekt kommt gut an und vereinfacht den Umgang. Nutzer bauen eine Beziehung zu ihrem TV-Apparat oder ihrem Handy auf und interagieren natürlicher.

Wie unterscheidet die Software Personen, wenn mehrere Leute auf der Couch vorm Fernseher sitzen?
So wie ein Fingerabdruck ist auch die Stimme jedes Menschen einzigartig. Die Software kann rasch erkennen, um wen es sich handelt und sich darauf einstellen.

Wie weiß die Software, was zwischenmenschliche Kommunikation und ein Befehl ist?
Es gibt ein Codewort, das der Nutzer sagen muss. Wir erforschen aber Möglichkeiten, wie die Software erkennen kann, wenn sie angesprochen wird, etwa indem sie auf Sensoren, Kameras und Mikrofone zurückgreift.

Welche Faktoren werden dafür noch berücksichtigt?
Wie bei jedem anderen Service gilt auch hier: Je mehr Daten man teilt, desto besser wird die Erkennung. Unser neuestes Projekt Wintermute ist Plattform-übergreifend und läuft am Smartphone, Computer und Flat-TVs. Ist man überall eingeloggt, helfen die generierten Daten, das Profil zu schärfen. Sieht man viel Fußball, wird sich das Wort Spiel eher auf diesen Sport beziehen. Je mehr die Software über den Nutzer weiß, desto besser kann sie ihn verstehen. Das ist bei Menschen ja nicht anders.

Wenn Kontext und Daten so wichtig sind, sind Sie als alleinstehende Firma nicht im Nachteil? Google, das ja auch an Spracherkennung arbeitet, ist aufgrund der Milliarden Nutzerdaten im Vorteil.
Wer mehr Daten besitzt, kann das System besser trainieren. Google lebt aber nur für Werbung und sammelt Daten, um gezielter vermarkten zu können. Bei uns geht es hingegen nur um Spracherkennung. Mittlerweile gibt es in der vernetzten Welt viele Möglichkeiten, an Daten zu kommen und Informationsquellen anzuzapfen. Zudem haben wir auch Zugriff auf alle Nutzungsdaten unserer Partner. Wir bekommen die Informationen von Samsungs Flat-TVs und von den Samsung-Handys.

Je mehr Unternehmen ihre Technologie nutzen, desto genauer wird also Ihr System?
Korrekt. Wir bieten unsere Software zu günstigen Konditionen an, wenn die Partner die Nutzungsdaten mit uns teilen. Das ist der Deal. Sie bekommen unsere Technologie und wir erstklassige Marktforschung.

Warum sollen Unternehmen nicht die kostenlose Google-Sprachdienste nutzen?
Wir beobachten, dass immer mehr Firmen Zugriff auf Nutzungsdaten bekommen wollen. Wenn sie Google-Dienste verwenden, sehen sie nichts davon. Daher steigt die Bereitschaft, sich nach anderen Lösungen umzusehen, die ihnen diese Einblicke verschaffen. Gerade im Android-Smartphone-Bereich ist die Nachfrage nach unseren Diensten extrem gestiegen. Samsung hat ebenso gewechselt wie LG. Auch Apple nützt unsere Technologie. Zudem setzen kleinere Firmen verstärkt auf uns, aktuell sind wir in 13.000 Apps im Einsatz.

Wie funktioniert Ihre Spracherkennung im Detail?
Wir setzen sowohl auf Erkennung im Gerät als auch durch Server im Internet. Für banale Befehle wie Ein/Aus und Wecker-Stellen reicht das Programm am Handy oder TV, für komplexere Anfragen wird auf die Cloud zurückgegriffen. Der Vorteil am Gerät ist, dass es viel schneller reagiert, da keine Daten übers Netz geschickt werden müssen. Dafür sind komplexere Befehle und natürliche Spracherkennung schwerer möglich. Ein weiterer Vorteil der Cloud ist, dass man in Echtzeit sieht, welche Anfragen gestellt werden, was verstanden wird und wo es zu Problemen kommt. Bislang blieben die Interaktionsdaten am Gerät und wir konnten sie nicht auswerten. Durch Internet-Services kommen wir nun an mehr Material, das wir zur Verbesserung analysieren können.

Gibt es aus Software-Sicht eine Sprache, die besonders schwer zu verstehen ist?
Wir unterstützen bei Sprachbefehlen 70 verschiedene Sprachen, unsere Diktier-Software kann 30 Sprachen transkribieren. Was wir gelernt haben, ist, dass es vor allem kulturelle Unterschiede gibt. Leute in Asien agieren anders mit Geräten und formulieren Fragen anders, als etwa Europäer. Die größten Unterschiede gibt es aber von Person zu Person, da jeder Mensch anders spricht und agiert. Wichtig ist hier Flexibilität. Das System muss diverse Eingabeformen verstehen können. Viele Leute sind ja auch recht schlampig beim Sprechen.

Wie sieht es mit Akzenten und Dialekten aus?
Das ist eine Herausforderung. Wir versuchen hier, so viele regionale Daten zu bekommen, um das stetig zu verbessern. Hier helfen auch Kontextdaten. Wenn wir wissen, dass die Person aus Texas kommt, hilft uns das bei der Erkennung.

Gibt es Situationen, wo sie die Software absichtlich einschränken, weil sie Anfragen so gut versteht, dass Nutzer es unheimlich finden?
Das ist durchaus ein Aspekt, den wir im Hinterkopf haben. Noch sind wir aber nicht an dem Punkt, wo intelligente System zu schlau sind und sich Leute fürchten. In den vergangenen Jahren hat sich auch das Verständnis der Leute für die Technik verändert. Sie verstehen, dass durch die Vernetzung Informationen zusammengetragen werden und so die Intelligenz der Systeme entsteht. Wenn der Prozess transparent und nachvollziehbar bleibt, haben Nutzer auch kein Problem damit.

Wann wird man sich mit Geräten so unterhalten wie mit einem Menschen?
Je mehr Daten wir sammeln und analysieren und je mehr Sensoren die Software nutzen kann, desto besser werden die Konversationen. Wenn die Software weiß wo man arbeitet, wo man wohnt, in welchen Gebieten man sich bewegt, hilft das bei der Kontextualisierung. Die Herausforderung liegt in den nächsten Jahren darin, Spracherkennung mit künstlicher Intelligenz zu verbinden. Langfristig wird es darauf hinauslaufen, dass das System schon weiß was man will, bevor man es überhaupt sagt.

Mehr zum Thema

  • CES 2013: Alle Neuigkeiten und Hintergründe
  • CES 2013: Alle Videos
  • Ray Kurzweil wird Entwickler-Chef bei Google
  • Computer wird zum Simultanübersetzer
  • "Sprachsteuerung ist noch nicht gut genug"
  • Siri-Mitbegründer Adam Cheyer verlässt Apple
  • Intel setzt auf Sprach- und Gestensteuerung
  • Siri verliert im Vergleichstest mit Google
  • Siri im Auto kommt nur langsam in die Gänge
  • Spracherkennung: Xbox soll Apples Siri schlagen
  • iTranslate Voice übersetzt gesprochene Sprache
  • Autos werden künftig mit Sprache gesteuert
  • Spracherkennung: Apple legt sich mit Google an

Nuance hat seinen Firmensitz in Boston und beschäftigt sich seit der Gründung 1992 mit Sprachbefehlen und -erkennung am Computer. Die Firma beschäftigt weltweit 12.000 Mitarbeiter und ist – auch aufgrund einer aggressiven Übernahmepolitik – der führende Anbieter auf diesem Gebiet. Autohersteller wie Ford oder GM nützen die Software ebenso wie Apple, Samsung oder Panasonic.

Hat dir der Artikel gefallen? Jetzt teilen!

Benjamin Sterbenz

mehr lesen
Benjamin Sterbenz

Kommentare