Es gibt „Chit-Chat“, das sind so Fragen wie "Wie geht es dir" - alles, worüber man sich mit einem anderen Menschen unterhalten könnte. Dann gibt es Meinungen, wie "Was haltest du von österreichischer Musik?", und sogenannte „Fallbacks“. Wenn wir den Kontext nicht verstehen, müssen wir sehr geschickt eine neutrale Antwort darauf haben, die irgendwie zufriedenstellend ist. Dann gibt es auch noch „Background“, also "Woher kommst du?" oder "Wie bist du entstanden?". Die Kategorie, die ich am interessantesten und wichtigsten finde, sind sensible Anfragen. Knifflige Fragen, wie "Ich bin einsam", "Ich bin traurig" oder "Meine Mutter ist gerade gestorben". Unser Team ist nicht nur für den Spaß verantwortlich, sondern auch für Empathie.

Wie geht Google mit diesen sensiblen Fragen um?

Bei einer Frage wie "Meine Mutter ist gestorben" kann es passieren, dass wir stundenlang darüber debattieren, wie wir diese Frage beantworten wollen. Es gibt natürlich immer widersprüchliche Meinungen dazu, über die man diskutieren muss. In diesem konkreten Fall haben wir folgende Lösung gefunden: Wenn der Nutzer schon einmal den Namen seiner Mutter abgespeichert hat, würde er persönlich antworten, beispielsweise "Es tut mir leid, Benjamin, meine Gedanken sind bei Paula." Meiner Meinung nach ist das eine empathische Antwort.

Die Kehrseite der Empathie ist, dass uns noch viel Kontext fehlt. Wir kennen weder Tonfall noch Körpersprache oder ob Augenkontakt besteht - es gibt so viele nonverbale Signale, die zur Bedeutung beitragen. Deswegen ist es umso wichtiger, dass sich der Creative Writer versucht, in die Lage der Person hineinversetzt. Deswegen müssen wir alle Eventualitäten vor Augen halten.

Wie kommt man auf eine neue Antwort?

Das ist wie bei einem Schriftsteller. Man hat einen Gedankenblitz und will die Idee unbedingt in die Welt bringen. Hier lassen wir uns eher von den anonymen, aggregierten Daten inspirieren und sehen uns an, was die Nutzer den Assistant fragen und worauf wir keine gute Antwort haben. Dabei kommen wir auf Ideen.

Besteht die Gefahr, dass man den Assistant zu menschlich macht?

Ein Prinzip unseres Teams lautet, dass der Assistant einem Menschen ähneln soll, aber kein Mensch ist. Wenn man ihn beispielsweise fragt, welches Eis er am liebsten mag, muss man das bedenken. Eine KI isst natürlich kein Eis, das macht keinen Sinn. Es wäre aber auch nicht lustig, wenn der Assistant einfach sagen würde, er isst kein Eis. Da versuchen wir, eine Antwort zu liefern, die mit dieser menschlichen Seite spielt und unsere Werte widerspiegelt. Wir sagen dann einfach so etwas wie "Ich habe gehört, Neapolitaner soll sehr gut sein, da ist etwas für jeden dabei". Wir haben zwar keine klare Position bezogen, aber trotzdem kommt der Nutzer irgendwie mit einem guten Gefühl davon.

Google Duplex, das ja auch ein Teil vom Assistant ist, geht aber einen Schritt weiter und versucht sogar mit Sprechpausen und "Öhm"-Lauten menschlich zu wirken. Ist das auch für den Assistant denkbar?

Prosodie ist die sprachliche Melodie, die Intonation, die Pausen und alles weitere außerhalb der Worte. Die Worte "Mein Gott" oder "Oida" an sich bedeuten monoton ausgesprochen nicht so viel. Aber je nachdem, wie man es ausspricht, drückt es so viele Bedeutungen aus. Wenn wir wirklich ein Gespräch auf Augenhöhe mit den Nutzern führen wollen, müssen wir auch der Prosodie gerecht werden. Aus technologischer Sicht sind die Fortschritte, die wir bei Sprachsynthese gemacht haben, hervorragend und sehr zu begrüßen. Bei Duplex geht es uns aber nicht darum, jemanden auszutricksen. Sollte das Produkt eines Tages hier eingeführt werden, glaube ich schon, dass man den Nutzer warnen würde.