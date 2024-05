Der Charakter einer Stimme sei von vielen Eigenschaften abhängig . Besonders wichtig sei der so genannte Restklang , zu dem etwa die Formung von Zischlauten oder Konsonanten zählt. KI schaffe es, die Eigenschaften einer Stimme anhand von Beispielaufnahmen zu erkennen und zu reproduzieren.

Die Stimme eines Menschen ist so einzigartig wie ein Fingerabdruck , heißt es oft. "Das stimmt auch. Aber genau das ist die Stärke von KI, sie kann quasi einen Fingerabdruck kopieren", sagt Malte Kob , Leiter des Instituts für Gesang und Stimmforschung der Universität für Musik und darstellende Kunst Wien.

Scarlett Johansson weiß, wovon sie spricht. Sie hat im vergangenen Jahr bereits eine KI-Firma verklagt , die in einer Werbung präsentiert hat, wie sie KI-generierte Bilder und die Stimme der Schauspielerin erzeugen kann. Doch wie leicht fällt es KI, eine Stimme zu kopieren? Wie unverwechselbar ist unsere Stimme?

Die neueste Generation der Künstlichen Intelligenz ChatGPT kann mit verschiedenen Stimmen sprechen. Eine davon ähnelt jener von Filmstar Scarlett Johansson sehr - und zwar so sehr, dass selbst Freunde von Johansson dachten, sie hätte der Entwicklerfirma OpenAI ihre Stimme geliehen.

Wenige Sekunden reichen

"Hinter solchen Spracherzeugungstechnologien, auch 'Voice Cloning' genannt, stecken Deep-Learning-Systeme, die daraus lernen, wie Audiospektren aufgebaut sind", erklärt Günter Klambauer vom Artificial Intelligence Lab des Linz Institute of Technology. Je mehr Sprachmaterial man von einer Person hat, desto besser könnten Stimmen imitiert werden: "Die Eigenheiten einer Stimme kann man schon aus 30 Sekunden langen Aufnahmen herausziehen. Von Scarlett Johansson gibt es natürlich viel mehr."

Dass man Stimmen mit so wenig Trainingsmaterial nachbilden kann, sei jüngsten Fortschritten im Bereich des so genannten "Few Shot Learning" geschuldet. OpenAI hat erst Ende März "Voice Engine" vorgestellt, ein KI-Programm, dem angeblich nur 15 Sekunden Sprachaufnahmen einer Person reichen, um ihre Stimme klonen zu können.

➤ Mehr lesen: Sprach-KI von OpenAI imitiert die eigene Stimme

Was nicht trainiert wurde, kann komisch klingen

Laut Kob sei KI gut darin, eine Stimme gesamtheitlich zu erfassen. Es sei dennoch stark vom Trainingsmaterial abhängig, wie natürlich das Resultat klinge. Er schildert das in einem Beispiel: "Ein Pferd soll einen Springparkour mit 20 Hindernissen bewältigen, es hat aber nur 19 trainiert. Das unbekannte Hindernis hat plötzlich einen Wassergraben. Da springt es entweder rein oder es verweigert, die Hürde zu nehmen."

Genauso könne es beim "Voice Cloning" geschehen, dass die Trainingsdaten nur aus gesprochenem Material bestehen und plötzlich soll ein Lacher reproduziert werden. Das kann dann realistisch klingen, aber möglicherweise auch ziemlich merkwürdig.