Wie Google dem Assistant eine Persönlichkeit verleiht
Digitale Sprachassistenten wie Amazons Alexa und Apples Siri werden bereits von 27 Prozent der Österreicher regelmäßig genutzt. Auf Zuruf helfen diese bei alltäglichen Aufgaben, beispielsweise der Suche nach Rezepten, dem Regeln der Heizung oder dem Verfassen der Einkaufsliste. Obwohl beim Marktanteil Amazons Alexa deutlich voran liegt, gilt Googles Assistant als der derzeit intelligenteste und gesprächigste Sprachassistent.
Benjamin Dorvel und sein Team sind dafür verantwortlich, dass das so bleibt. Der 33-Jährige US-Amerikaner verantwortet die Persönlichkeit des Google Assistant für den EMEA-Raum und entwickelt laufend neue Antworten und Dialogfunktionen. Im Gespräch mit der futurezone verrät er unter anderem, warum hinter dem Assistant eine "Mini-UNO" steht, welche Fragen besonders schwer beantwortet werden können und warum es einen österreichischen Assistant braucht.
Was ist deine Aufgabe?
Ich führe seit einem Jahr das Team, das die
Persönlichkeit des Google Assistant in Europa, dem Nahen Osten und Afrika ausbaut. Vor ungefähr zwei Jahren habe ich bei Google als Creative Lead der deutschen Persönlichkeit angefangen. Ich habe da ein besonders gutes Händchen für die Entwicklung und Konzipierung bewiesen.
Wie sieht dein Team aus?
Das Team ist wie ein Mini-UNO. Da sind Leute aus allen möglichen Ländern und verschiedenen beruflichen Werdegängen vertreten und ethnisch und intellektuell divers, das ist etwas ganz Tolles. Wir haben ehemalige Storyboarder von Disney und Pixar, Stand-up-Comedians, Dramaturgen, Texter, Chatbot-Entwickler, Radio-Moderatoren - es ist wirklich ein breites Spektrum an kreativem Talent. Ich bin auch stolz darauf, dass es in meinem Team genauso viele Frauen wie Männer gibt.
Persönlichkeiten werden eher Menschen zugeschrieben. Wie kann man eine Persönlichkeit für eine „Maschine“ wie dem Assistent entwickeln?
Wenn ein Mensch mit einer Maschine redet und diese auf menschenähnliche Weise antwortet, kommt man nicht darum herum, der Maschine menschliche Züge zuzuschreiben. Das liegt in unserer Natur. Es ist einfach nicht möglich, keine Persönlichkeit zu haben. Gerade deswegen war es uns sehr wichtig, das aktiv in die Hand zu nehmen und bewusst zu designen, damit die Persönlichkeit die Werte der Marke Google widerspiegelt und die Nutzer im jeweiligen Sprachraum anspricht.
Welche Werte sind das?
Google ist dafür bekannt, sehr spielerisch zu sein. Als wir uns zu Anfang zusammengesetzt und Gedanken gemacht haben, wie die Persönlichkeit aussehen sollte, haben wir gewisse Attribute und Charaktermerkmale, wie Freundlichkeit, optimistisch, umgangssprachlich, spielerisch und empathisch ausgesucht und in einem Style Guide festgelegt. Dann ist jeder internationale Autor gefragt, diese einzelnen Eigenschaften sprachraumgetreu zu übersetzen. Was heißt beispielsweise "freundlich" in
Deutschland? In Amerika ist "Freundlichkeit" sehr aufdringlich. Wenn man in ein Restaurant geht, stellt sich der Kellner vor, unterhält sich mit mir fünf Minuten über irgendein Thema und erst dann nimmt er die Bestellung auf. Wenn man in Deutschland, vor allem in Berlin, von einem freundlichen Kellner spricht, meint man jemanden, der die Bestellung aufnimmt ohne vorher mit mir eine Unterhaltung zu führen.
Es liegt im Ermessen des Creative Writers, diese Kernattribute für ihren Sprach- und Kulturraum zu definieren. Darüber hinaus gibt es für jeden Sprachraum noch weitere Attribute, die man sich ausdenken kann. In Deutschland ist der Assistant etwas direkter, philosophischer, poetischer und hat einen Hang zur Besserwisserei, wie man es von den Deutschen kennt. Aus der Sicht eines Germanisten ist dieser Hang zur Besserwisserei sehr charmant und positiv. Das deckt sich sehr gut mit dem, was Google machen will. Googles Mission ist es, die Informationen der Welt überall verfügbar zu machen. Das machen die Deutschen tagtäglich in jedem Gespräch, mit Fun Facts und unnützem Wissen, und diese Seite wollten wir natürlich hervorheben.
Gibt es Dinge, die man im deutschen Sprachraum überhaupt nicht machen kann?
Es gibt natürlich gewisse Charakterzüge und Kulturmerkmale aus Deutschland, die unseren Job schwer machen, beispielsweise "kein Small Talk". In Deutschland ist es sehr schwierig, ein bisschen Small Talk zu machen und eigentlich ist mein Team dafür verantwortlich. Da drücken wir eher ein bisschen ein Auge zu. Besser ausgedrückt, wir fallen nicht mit der Tür ins Haus. Wir versuchen die Sache ein bisschen langsamer anzugehen und eine Beziehung zu dem Nutzer aufzubauen.
Welche Fragen werden am häufigsten gestellt?
Der Assistant unterteilt sich in drei Bereiche: „Answers“, „Actions“ und „Personality“. „Actions“ sind Dinge, die der Assistant im Auftrag des Nutzers bewerkstelligen kann, wie das Licht anschalten oder ein Taxi anrufen. „Answers“ sind Fragen, bei denen man nach Informationen sucht. Die werden, wie bei der Suche, algorithmisch generiert. Mit diesen beiden Bereichen hat unser Team nichts zu tun. Wir beantworten alle Fragen, die an den Assistant gerichtet werden, als wäre er ein bewusstes Wesen, eine Entität. Das sind eine jede Menge. Mit Zahlen will ich aber nicht hausieren gehen.
Es gibt „Chit-Chat“, das sind so Fragen wie "Wie geht es dir" - alles, worüber man sich mit einem anderen Menschen unterhalten könnte. Dann gibt es Meinungen, wie "Was haltest du von österreichischer Musik?", und sogenannte „Fallbacks“. Wenn wir den Kontext nicht verstehen, müssen wir sehr geschickt eine neutrale Antwort darauf haben, die irgendwie zufriedenstellend ist. Dann gibt es auch noch „Background“, also "Woher kommst du?" oder "Wie bist du entstanden?". Die Kategorie, die ich am interessantesten und wichtigsten finde, sind sensible Anfragen. Knifflige Fragen, wie "Ich bin einsam", "Ich bin traurig" oder "Meine Mutter ist gerade gestorben". Unser Team ist nicht nur für den Spaß verantwortlich, sondern auch für Empathie.
Wie geht Google mit diesen sensiblen Fragen um?
Bei einer Frage wie "Meine Mutter ist gestorben" kann es passieren, dass wir stundenlang darüber debattieren, wie wir diese Frage beantworten wollen. Es gibt natürlich immer widersprüchliche Meinungen dazu, über die man diskutieren muss. In diesem konkreten Fall haben wir folgende Lösung gefunden: Wenn der Nutzer schon einmal den Namen seiner Mutter abgespeichert hat, würde er persönlich antworten, beispielsweise "Es tut mir leid, Benjamin, meine Gedanken sind bei Paula." Meiner Meinung nach ist das eine empathische Antwort.
Die Kehrseite der Empathie ist, dass uns noch viel Kontext fehlt. Wir kennen weder Tonfall noch Körpersprache oder ob Augenkontakt besteht - es gibt so viele nonverbale Signale, die zur Bedeutung beitragen. Deswegen ist es umso wichtiger, dass sich der Creative Writer versucht, in die Lage der Person hineinversetzt. Deswegen müssen wir alle Eventualitäten vor Augen halten.
Wie kommt man auf eine neue Antwort?
Das ist wie bei einem Schriftsteller. Man hat einen Gedankenblitz und will die Idee unbedingt in die Welt bringen. Hier lassen wir uns eher von den anonymen, aggregierten Daten inspirieren und sehen uns an, was die Nutzer den Assistant fragen und worauf wir keine gute Antwort haben. Dabei kommen wir auf Ideen.
Besteht die Gefahr, dass man den Assistant zu menschlich macht?
Ein Prinzip unseres Teams lautet, dass der Assistant einem Menschen ähneln soll, aber kein Mensch ist. Wenn man ihn beispielsweise fragt, welches Eis er am liebsten mag, muss man das bedenken. Eine KI isst natürlich kein Eis, das macht keinen Sinn. Es wäre aber auch nicht lustig, wenn der Assistant einfach sagen würde, er isst kein Eis. Da versuchen wir, eine Antwort zu liefern, die mit dieser menschlichen Seite spielt und unsere Werte widerspiegelt. Wir sagen dann einfach so etwas wie "Ich habe gehört, Neapolitaner soll sehr gut sein, da ist etwas für jeden dabei". Wir haben zwar keine klare Position bezogen, aber trotzdem kommt der Nutzer irgendwie mit einem guten Gefühl davon.
Google Duplex, das ja auch ein Teil vom Assistant ist, geht aber einen Schritt weiter und versucht sogar mit Sprechpausen und "Öhm"-Lauten menschlich zu wirken. Ist das auch für den Assistant denkbar?
Prosodie ist die sprachliche Melodie, die Intonation, die Pausen und alles weitere außerhalb der Worte. Die Worte "Mein Gott" oder "Oida" an sich bedeuten monoton ausgesprochen nicht so viel. Aber je nachdem, wie man es ausspricht, drückt es so viele Bedeutungen aus. Wenn wir wirklich ein Gespräch auf Augenhöhe mit den Nutzern führen wollen, müssen wir auch der Prosodie gerecht werden. Aus technologischer Sicht sind die Fortschritte, die wir bei Sprachsynthese gemacht haben, hervorragend und sehr zu begrüßen. Bei Duplex geht es uns aber nicht darum, jemanden auszutricksen. Sollte das Produkt eines Tages hier eingeführt werden, glaube ich schon, dass man den Nutzer warnen würde.
Für den neuesten Stand der Technik müsste man nach Amerika schauen, wo alles immer seinen Anfang hat und dann rüberkommt. Auf der IO wurden neue Stimmen verkündet, unter anderem auch von Prominenten wie John Legend. Dabei merkt man erst, wie weit diese Sprachsynthese mittlerweile ist. Bei der deutschen Stimme haben wir das einfach von der Sprachsuche übernommen, die Technologie ist mittlerweile etwas veraltet. Inzwischen gibt es WaveNet von DeepMind, die Sprache mit einer deutlich besseren Qualität erzeugen kann. Das gibt uns unglaublich viel Spielraum, um die Prosodie und anderes anzupassen.
Woran erkennt man, ob man jemanden beleidigt hat?
Es ist sehr schwierig. Wir bekommen natürlich viele Beleidigungen zu hören, die wir mit Empathie abfangen wollen. In gewissen Augenblicken sind die Nutzer unzufrieden mit dem Produkterlebnis, aber meistens ist es einfach nur Trolling. Eine häufig gestellte Frage ist "Ich liebe dich". Man könnte man sich auf die eigene Schulter klopfen und über das positive Feedback freuen. Allerdings haben wir festgestellt, dass meist danach "Ich hasse dich" folgt. Entweder sind die Nutzer sehr wankelmütig oder sie wollen einfach nur herausfinden, was der Assistant darauf sagt. Man kann solche Anfragen schwer von echten Äußerungen unterscheiden, weswegen man immer auf das Worst-Case-Szenario vorbereitet sein muss.
Wird es jemals einen Google Assistant mit österreichischer Persönlichkeit geben?
Die Entscheidung darüber liegt nicht in meiner Hand. Ich bin da nicht ganz unvoreingenommen, denn meine Frau ist Österreicherin und versuche selbst etwas mit österreichischem Einschlag zu sprechen. Ich fände es schon wichtig, eine Österreich-spezifische Persönlichkeit zu entwickeln, denn es gibt schon merkbare Unterschiede zur deutschen Kultur. In Deutschland hat die Persönlichkeit des Assistant einen Hang zur Besserwisserei und ist extrem sachlich und zurückhaltend. Das beißt sich mit dem, was ich so an Österreichern schätze. Hier hat man so viel Gemütlichkeit, die Leute sind geselliger, höflicher, lässiger, informeller, indirekter - so viele Charakteristiken und Eigenschaften, die einfach anders sind. Ich glaube, man könnte sehr gut auf Basis der deutschen Persönlichkeit - es gibt mit Sicherheit Gemeinsamkeiten - dem Ganzen einen österreichischen Touch verleihen.