KI-Programme können Stimmen schon mit wenigen Trainingsdaten nachbilden

Wie leicht kann KI meine Stimme imitieren?

22.05.2024

Künstliche Intelligenz ist gut darin, den Charakter einer Stimme zu erfassen. Je mehr Trainingsdaten es gibt, desto besser.

Die neueste Generation der Künstlichen Intelligenz ChatGPT kann mit verschiedenen Stimmen sprechen. Eine davon ähnelt jener von Filmstar Scarlett Johansson sehr - und zwar so sehr, dass selbst Freunde von Johansson dachten, sie hätte der Entwicklerfirma OpenAI ihre Stimme geliehen.

Hat sie aber nicht, obwohl sie von OpenAI-CEO Sam Altman tatsächlich darum gebeten worden war. Nun ist sie verständlicherweise sauer und macht ihrem Ärger öffentlich Luft.

➤ Mehr lesen: Scarlett Johansson streitet mit OpenAI: KI-Stimme klingt wie ihre

Der Fall zeigt ein Problem auf, das durch die voranschreitende Verbesserung von Künstlicher Intelligenz wohl noch öfters auftauchen wird. Die Programme sind ziemlich gut darin, menschliche Stimmen innerhalb kürzester Zeit zu imitieren bzw. zu klonen. Das öffnet die Tür für Missbrauch.

Scarlett Johansson weiß, wovon sie spricht. Sie hat im vergangenen Jahr bereits eine KI-Firma verklagt, die in einer Werbung präsentiert hat, wie sie KI-generierte Bilder und die Stimme der Schauspielerin erzeugen kann. Doch wie leicht fällt es KI, eine Stimme zu kopieren? Wie unverwechselbar ist unsere Stimme?

➤ Mehr lesen: Bankkonto lässt sich mit künstlich generierter Stimme knacken

KI kann quasi einen Fingerabdruck kopieren

Die Stimme eines Menschen ist so einzigartig wie ein Fingerabdruck, heißt es oft. "Das stimmt auch. Aber genau das ist die Stärke von KI, sie kann quasi einen Fingerabdruck kopieren", sagt Malte Kob, Leiter des Instituts für Gesang und Stimmforschung der Universität für Musik und darstellende Kunst Wien.

Der Charakter einer Stimme sei von vielen Eigenschaften abhängig. Besonders wichtig sei der so genannte Restklang, zu dem etwa die Formung von Zischlauten oder Konsonanten zählt. KI schaffe es, die Eigenschaften einer Stimme anhand von Beispielaufnahmen zu erkennen und zu reproduzieren.

Wenige Sekunden reichen

"Hinter solchen Spracherzeugungstechnologien, auch 'Voice Cloning' genannt, stecken Deep-Learning-Systeme, die daraus lernen, wie Audiospektren aufgebaut sind", erklärt Günter Klambauer vom Artificial Intelligence Lab des Linz Institute of Technology. Je mehr Sprachmaterial man von einer Person hat, desto besser könnten Stimmen imitiert werden: "Die Eigenheiten einer Stimme kann man schon aus 30 Sekunden langen Aufnahmen herausziehen. Von Scarlett Johansson gibt es natürlich viel mehr."

Dass man Stimmen mit so wenig Trainingsmaterial nachbilden kann, sei jüngsten Fortschritten im Bereich des so genannten "Few Shot Learning" geschuldet. OpenAI hat erst Ende März "Voice Engine" vorgestellt, ein KI-Programm, dem angeblich nur 15 Sekunden Sprachaufnahmen einer Person reichen, um ihre Stimme klonen zu können.

➤ Mehr lesen: Sprach-KI von OpenAI imitiert die eigene Stimme

Was nicht trainiert wurde, kann komisch klingen

Laut Kob sei KI gut darin, eine Stimme gesamtheitlich zu erfassen. Es sei dennoch stark vom Trainingsmaterial abhängig, wie natürlich das Resultat klinge. Er schildert das in einem Beispiel: "Ein Pferd soll einen Springparkour mit 20 Hindernissen bewältigen, es hat aber nur 19 trainiert. Das unbekannte Hindernis hat plötzlich einen Wassergraben. Da springt es entweder rein oder es verweigert, die Hürde zu nehmen."

Genauso könne es beim "Voice Cloning" geschehen, dass die Trainingsdaten nur aus gesprochenem Material bestehen und plötzlich soll ein Lacher reproduziert werden. Das kann dann realistisch klingen, aber möglicherweise auch ziemlich merkwürdig.

Kritische Einstellung gegenüber Tonaufnahmen notwendig

Mit geklonten Stimmen wird jedenfalls bereits viel Schindluder getrieben. Telefonbetrüger*innen ahmen damit eigene Verwandte nach, Trolle hetzen Polizeieinheiten auf Unbescholtene (Swatting).

Das Problem von "Deep Fakes" werde auch im Audiobereich immer größer, sagt Medien- und Technikphilosoph Mark Coeckelbergh von der Universität Wien. "Das reicht von Jugendlichen, die Bullying betreiben, bis hin zu Politiker*innen, die Wahlen manipulieren, indem sie Skandale rund um Konkurrent*innen kreieren."

Zu schriftlichen Texten hätten viele Menschen bereits eine kritische Einstellung entwickelt, Stichwort Fake News. "So eine kritische Einstellung muss man immer mehr auch gegenüber Ton- und Bildaufnahmen einnehmen." Ein großes ethisches Problem sei auch, dass man mit KI-Stimmen in Konkurrenz zu Menschen tritt, die bisher als professionelle Sprecher*innen gearbeitet haben. Ihnen drohe ein Jobverlust, wenn Unternehmen auf die Idee kommen, mittels KI günstiger Texte vertonen zu können.

➤ Mehr lesen: Warum wir Deepfakes für echt halten, egal wie schlecht sie sind

KI zu entlarven, wird immer schwierig sein

Feststellen zu können, ob eine Stimme tatsächlich von einer Person stammt oder von einer KI erzeugt wurde, sei schwierig, meint Klambauer. Aber genauso, wie Menschen bestimmte Charakteristika bei ihrer Handschrift oder dem Tippen auf einem Keyboard aufweisen, habe KI-Software bestimmte Muster beim Erzeugen von Sprache.

"Ein anderes KI-System könnte erkennen, ob Voice Cloning stattgefunden hat." Wie bei KI im Allgemeinen gebe es aber ein ständiges Katz-und-Maus-Spiel, sagt Coeckelbergh. "Es wird immer Technologien geben, die Detektionsmaßnahmen umgehen können."

Frag die futurezone

In der Rubrik "Frag die futurezone" recherchieren und beantworten wir ausgewählte Fragen zu Tech-Themen für euch.

Stellen könnt ihr sie mit einer E-Mail an die Adresse redaktion@futurezone.at - Betreff: "Frag die futurezone", ihr könnt uns aber auch gern via Social Media (Facebook, Instagram, Twitter) kontaktieren.