Beim ersten Mal kann man sich schon erschrecken.

Wie die Stimmen der Simpsons durch KI ersetzt werden könnten

10.03.2021

Die Simpsons existieren schon seit 30 Jahren als TV-Serie. Könnten die Stimmen der Sprecher bald durch eine KI ersetzt werden?

Dieser Artikel ist älter als ein Jahr!

Die Simpsons sind eine legendäre Comic-Serie, die es seit 30 Jahren gibt. Doch die Kosten der Sprecher waren dem Produzenten Fox eines Tages zu teuer: 1998 betrugen die Sprecher-Kosten nur 30.000 US-Dollar pro Episode, 2008 waren es bereits 400.000 US-Dollar. Das war Fox zu viel und der Filmkonzern beschloss, die Gehälter der Sprecher um 30 Prozent zu senken. „Friss oder stirb“ lautete damals die Devise für die Sprecher, und alle unterschrieben - bis auf Harry Shearer, der Mr Burns und Waylong Smithers gesprochen hatte. Doch auch der lenkte am Ende ein, heißt es in einem Wired-Bericht.

Nun gibt es die Simpsons eben seit 30 Jahren und auch die Sprecher selbst sind in die Jahre gekommen. Die meisten haben mit ihren Sprecher-Rollen gut verdient, und sie verdienen an den Wiederholungen der alten Episoden weiterhin viel Geld. „Wired“ stellt sich nun die Frage, ob die Produzenten in Zukunft die Sprecher überhaupt noch brauchen werden. Schließlich gibt es Technologien wie Deep Fakes und Audio-Material zum Trainieren der künstlichen Intelligenz ist nach 30 Jahren genügend vorhanden.

Farewell-Folge mit Edna Krabappel

In einer der jüngsten Episoden wurde etwa Barts Lehrerin, Edna Krabappel, wieder zum Leben erweckt. Ihre Rolle wurde im Jahr 2013 aufgegeben, nachdem Marcia Wallace, ihre Sprecherin, verstorben war. Nun kam Krabappel für eine finale Farewell-Folge wieder vor - und dazu wurden die Aufnahmen aus früheren Episoden als Audio-Basis benutzt. Das ließe sich mit praktisch jedem Charakter fortsetzen, schreibt „Wired“.

„Man kann auf jeden Fall eine Episode der Simpsons produzieren, bei der die Stimmen der Charaktere in einer glaubwürdigen Art und Weise vertont werden“, sagt Tim McSmythurs, ein kanadischer KI-Forscher und Medien-Produzent, der selbst ein Sprachmodell entwickelt hat, mit dem Stimmen nachgemacht werden können. „Ob das genauso lustig wäre, ist eine andere Frage“, so McSmythurs.

Homer trifft auf Notting Hill

Auf seinem YouTube-Channel „Speaking of AI“ hat McSmythurs die ikonische Szene aus Notthing Hill mit Homer, der die Julia Roberts Rolle spielt, nachgespielt und dabei die Stimme von Homer von seiner KI simulieren lassen. Der KI-Forscher hat ein generisches Modell entwickelt, das jeden Text in eine englische Audio-Stimme umwandeln kann. Um eine neue Stimme zu generieren, trainiert er sein Modell rund drei Stunden mit neuen Daten, füttert die Maschine mit einem Text-Script und schon geht es los.

Genau das hat McSmythurs auch mit der Stimme von Homer gemacht, sagte er. Danach spuckt das Modell mehrere Aufnahmen aus, jede davon klingt ein wenig anders. Im Anschluss kann man die Aufnahme, die am besten passt, auswählen. Dem Eindruck von „Wired“ zufolge klingt die Stimme zwar wie Homer, aber sie klingt „emotional flach“. „Das hängt sehr stark von den Trainingsdaten ab“, sagt McSmythurs. „Wenn man ein Modell nicht mit einer großen Vielfalt an Emotionen trainieren kann, dann kann es das nicht von Haus aus liefern. Somit klingt der Homer nicht so energetisch, wie ein Homer klingen könnte“, sagt er.

Fazit: Menschen sind menschlich

McSmythurs sagt, dass es zwar möglich sei, einzelne Charaktere für Farewell-Folgen wieder zum Leben zu erwecken und diese von einer KI einsprechen zu lassen, aber dass man Schwierigkeiten haben würde, ganze Folgen damit zu produzieren und die Sprecher gänzlich zu ersetzen. „Die Stimme, die Sprecher mit sich bringen, sind mehr als Stimmen. Sie bringen einen emotionalen Inhalt“, so der KI-Forscher. „Menschen machen einen guten Job darin, menschlich zu sein.“

Farewell-Folge mit Edna Krabappel

Homer trifft auf Notting Hill

Fazit: Menschen sind menschlich

Kommentare