Sekretär

Spracherkennung: Apple legt sich mit Google an

13.08.2012

Glaubt man den Versprechungen von Apple-Chef Tim Cook, ist das neue iPhone 4S ein exzellenter Menschenversteher. Die Spracherkennungssoftware Siri soll gesprochene Befehle und Fragen aller Art verstehen und bearbeiten können. Wissenschaftler sind hingegen skeptisch – auch weil Google, das seit 2008 intensiv an Sprache als Eingabemethode forscht, bislang keine überzeugenden Ergebnisse liefert.

Dieser Artikel ist älter als ein Jahr!

Begonnen hat alles Ende der 1980er-Jahre. Damals nahm jene Vision bei Apple ihren Lauf, die nun durch die Software „Siri“ Realität wurde. In dem Buch Odyssey beschrieb der damalige Chef John Sculley ein Tablet-ähnliches Gerät, das man alleine mit Sprache bedient. Eine Künstliche Intelligenz interpretiert die Sätze des Nutzers und liefert passende Ergebnisse. Ein Konzept, das bei IT-Konzernen gerne für visionäre Präsentationen aufgegriffen wird, bislang aber an der Durchführbarkeit scheiterte. Dies ändert sich nun. Jene Firma, die den Touchscreen massentauglich gemacht hat, wagt sich mit Siri, einem „persönlichen, digitalen Assistenten“, an die Sprachsteuerung. Experten sehen in dem Schritt den Durchbruch dieser natürlichen Bedienform.

Ein Schritt mit großer Symbolkraft
„In den vergangenen Jahren sind beeindruckende Fortschritte in der Forschung erzielt worden“, sagt Kurt Tutschku, Professor an der Universität Wien und Leiter der Forschungsgruppe Future Communication. Für ihn kommt Apples Integration von Siri einer kleinen Revolution gleich. Dass sich der riesige IT-Konzern abermals einem neuen Bedienkonzept widmet, hat für Tutschku große Symbolwirkung. Für ihn ist es ein klares Zeichen, dass Apple diese Eingabemethode im Consumer-Bereich etablieren will.

Der Informatiker warnt jedoch, dass man sich anfangs nicht allzu große Erwartungen machen soll: „Ich stehe Apples vollmundigen Ankündigungen skeptisch gegenüber. Ich bezweifle, dass sie ihre Versprechen erfüllen können.“ Apples fantastische Vermarktungsmaschinerie pralle auf den über Jahrzehnte aufgebauten, schlechten Ruf der Spracherkennung, weshalb die Gefahr der Enttäuschung groß sei. Die Funktion müsse daher von Beginn an gut funktionieren und sofort ihre Alltagstauglichkeit beweisen.

Um Englisch gut zu gebrauchen
Erste Testberichte stellen Siri ein zwiespältiges Zeugnis aus. Jene, die positiv überrascht sind, sprechen von einer schnellen Eingewöhnungsphase. Der digitale Sekretär werde als Person wahrgenommen, als jemand mit dem man sich unterhält, in Dialog tritt. Einfache Befehle wie etwa „Erinnere mich, dass ich heute Milch einkaufen muss“, werden tatsächlich mit einem Kalendereintrag vermerkt. Die Technik dürfte für banale Befehle wie „Wo ist die nächste Bankfiliale“ oder „Blumen für Hochzeitstag kaufen“ jedenfalls gerüstet sein. Da die Software dank GPS weiß, wo man ist, wer im Adressbuch steht und welche Kalendereinträge man hat, nützt sie diesen Kontext geschickt aus, um besser zu verstehen. Des weiteren werden zur Unterstützung Informationsdatenbanken im Internet angezapft. Via Internet-Verbindung greift das Handy auf Wikipedia, Wolfram Alpha oder Routenplaner zurück.

Dass man das Handy nur ans Ohr führen oder den Home-Knopf länger gedrückt halten muss, um den Diktat-Modus zu aktivieren, wird ebenfalls als einfach und logisch beschrieben. Negative Kritik kommt in erster Linie von jenen, die Siri in deutscher oder französischer Sprache nutzen. Die Software und ihre Online-Datenbanken sind für diesen Sprachraum bislang nur mit Einschränkungen verfügbar.

Software mit Einschränkungen
„Man darf nicht erwarten, dass das Telefon die Welt erklärt. Die Software kann nur bestimmte Befehle erkennen. Und das sollte dann zuverlässig funktionieren“, sagt Tutschku. Konsumenten müssen sich auch darauf einstellen, dass Fehler passieren, bei Spracherkennung sei dies unvermeidlich. Trotzdem schätzt der Wissenschaftler die Chancen für den Erfolg gut ein. Siri ist eine sehr spezifische Methode, die nur auf die Steuerung des Gerätes fokussiert. Damit ist das zu erkennende Vokabular und dessen Kontext weit enger gesteckt als etwa bei den Versuchen, die Google seit Jahren unternimmt.

Der Such-Konzern aus Mountain View ist jene IT-Firma, die – neben IBM und Microsoft - die größten Anstrengungen in Sachen Spracherkennung unternimmt. Seit 2008 wird Suche via Sprache angeboten – in Form einer iPhone-App sowie in Android und dem Chrome-Browser integriert. Auch Mike Cohen, der ehemalige Gründer vom führenden Anbieter von Sprach-Software Nuance, arbeitet mittlerweile für den Konzern. Der Unterschied zum Rivalen: Während bei Apple die Suchanfragen sehr spezifisch sind, muss Google jede nur erdenkliche Anfrage verstehen und ausführen können. Google kann dafür einerseits auf seine Expertise bei der Text-Suche zurückgreifen. Man weiß, wie, wann und wonach Leute im Netz suchen, was bei der Sprach-Analyse berücksichtigt wird.

Google sammelt Sprach-Proben aus allen Regionen der Welt
Andererseits begegnet Google der Herausforderung mit brutaler Rechengewalt. Es geht nicht darum, Sprache zu verstehen, sondern deren Daten zu analysieren. Dafür hat der Konzern die weltweit wohl umfangreichste und größte Datenbank an Wortschnipseln mit geschätzten 14 Millionen Wörtern aufgebaut. Seit dem Start des Voice-Diensts werden die Anfragen der Nutzer – anonymisiert – protokolliert, mitgeschnitten und die Informationen zur Verbesserung des Systems verwendet. Zusätzlich beschäftigt das Unternehmen weltweit kleine Teams von Wissenschaftlern, die alle Regionen der Erde bereisen, um Worte, Sätze und Phrasen aufzuzeichnen. Schließlich fließen noch die Ergebnisse des Digitalisierungsprojekts Google Books ein. Denn dabei geht es nicht nur um den Erhalt von wertvoller Literatur, sondern vor allem um das Analysieren und Verstehen von Sprachen.

Geschäftige Gespräche um Nutzerbedürfnisse
Dass hinter diesen enormen Anstrengen keine altruistischen Motive stecken, darf man vermuten. Im Fall von Apple werden die Daten zur Analyse gesammelt – und zwar auch jene, die über Sprachbefehl bei Google eingegeben werden. Darauf aufbauend soll das Service verbessert werden. Parallel gibt es eine Schnittstelle (API), an der Dritt-Unternehmen, wie etwa Restaurant-Verzeichnisse oder Ticket-Shops, andocken können.

Erfolg ist ungewiss
Ob nun Apple oder Google, entscheidend für den Erfolg ist laut Wissenschaftler Tutschku vor allem das Zusammenspiel von Mensch und Technologie. Nutzer seien durch Google konditioniert, Anfragen in prägnanten Schlagworten zu formulieren. Das seien Gedankenabläufe, die man sich antrainiert hat. Ob Nutzer daher mit dem iPhone wie mit einer Person sprechen, ist fraglich. Zudem führe die Eingabe von Text in vielen Situationen meist schneller zum Ziel als das Formulieren und automatisierte Verstehen eines Satzes. Tutschku sieht Sprachbefehle daher auch langfristig nicht als Ersatz bestehender Eingabemethoden. „Der Name Personal Digital Assistant ist von Apple gut gewählt. Assistenz-Systeme sollen den Nutzer ja lediglich unterstützen und ihn nicht entmündigen.“

Die Siri Software:
Apple hat die Firma Siri vor 18 Monaten für kolportierte 200 Millionen US-Dollar gekauft und deren Forschung nun in iOS5 und das iPhone 4S integriert. Der digitale Assistent basiert auf Künstlicher Intelligenz, die Sprachbefehle mit dem Umgebungskontext abgleicht. Die Firma Siri geht ursprünglich auf einen großen Forschungsauftrag der DARPA zurück. Es wurde im Zuge des CALO Projekts entwickelt an dem mehr als 300 Forscher aus dem universitären wie auch privatwirtschaftlichen Bereich arbeiteten.

Kommentare