Sprach-KI von OpenAI imitiert die eigene Stimme

31.03.2024

"Voice Engine" braucht Nutzer*innen nur 15 Sekunden zuhören, um die Stimme zu imitieren.

Dieser Artikel ist älter als ein Jahr!

OpenAI arbeitet an einem KI-Modell, das Stimmen imitieren kann. "Voice Engine" soll Textpassagen in jeder Stimme wiedergeben können. Dafür sei lediglich eine 15 Sekunden lange Audiodatei mit einem Beispiel nötig. Voice Engine wird aktuell im kleinen Rahmen getestet, heißt es in einem Blogeintrag.

Das KI-Modell wurde bereits 2022 entwickelt und diente als Grundlage für Text-zu-Sprache-Anwendungen wie "ChatGPT Voice" und "Read Aloud". Letzteres Feature kann Inhalte von hochgeladenen Fotos, etwa von Buchseiten, vorlesen. Auch für "HeyGen", ein Tool, das Videos übersetzt und Lippenbewegungen automatisch anpasst, kommt Voice Engine zum Einsatz.

➤ Mehr lesen: Keine Fremdsprachen mehr nötig: KI wird zum Wunder-Übersetzer

Wir würden hier gerne ein Youtube Video zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte Youtube zu.

Aufnahmen übersetzen und Therapiemaßnahmen

Mögliche Anwendungsfälle sieht OpenAI etwa beim Übersetzen der eigene Stimme in andere Sprachen, beispielsweise wenn man mit einem Podcast, Erklärungsvideos oder Werbung ein internationales Publikum möchte. Statt den Text mehrfach in verschiedenen Sprachen einzusprechen, kann man den Text automatisch übersetzen und von der eigenen KI-Stimme sprechen lassen.

Zudem schlägt OpenAI das Tool zur Unterstützung für Personen vor, die nicht lesen oder sprechen können, bzw. die Schwierigkeiten beim Lernen haben. Auch könnten Menschen, die ihre Stimme verloren haben, diese mithilfe von Voice Engine rekonstruieren. Da nur ein kurzes Beispiel von wenigen Sekunden benötigt wird, sei das bei einigen Patient*innen möglich.

➤ Mehr lesen: Filmreife KI-Videos: Ein Hollywood-Drama bahnt sich an

Warnung vor Missbrauch

Das KI-Unternehmen räumt allerdings ein, dass die Anwendung auch missbräuchlich verwendet werden kann. So könnte es zum Erschleichen von sensiblen Daten, etwa bei einer Bank, verwendet werden. Zudem könnten insbesondere während Wahlen gefälschte Sprachaufnahmen für Skandale sorgen. "Wir verstehen, dass die Erzeugung von Sprache, die den Stimmen von Menschen ähnelt, schwerwiegende Risiken hat, die insbesondere in einem Wahljahr im Fokus stehen", heißt es seitens OpenAI. Deshalb wird Voice Engine vorerst nicht öffentlich zur Verfügung stellen.

Das Unternehmen arbeite unter anderem mit internationalen Regierungen und Pressevertreter*innen zusammen, um Missbrauch vorzubeugen. Aktuell kann Voice Engine daher nur von einer streng limitierten Gruppe getestet werden. Zudem wurde eine Art Wasserzeichen entwickelt, mit dem so hergestellte Audiodateien zurück verfolgbar sind. Wer Voice Engine nutzt, muss öffentlich machen, dass es sich um eine KI-Stimme handelt. Bevor das KI-Modell öffentlich zugänglich wird, müsste zudem mehr Forschung betrieben werden, um zu verhindern, dass Stimmen ohne Zustimmung imitiert werden.

Mehr zum Thema

Simultan kann die KI allerdings noch nicht übersetzen.

Digital Life

Kommentare

Wir würden hier gerne einen Outbrain Feed zeigen. Leider haben Sie uns hierfür keine Zustimmung gegeben. Wenn Sie diesen anzeigen wollen, stimmen sie bitte Outbrain UK Ltd zu.

Sprach-KI von OpenAI imitiert die eigene Stimme

Aufnahmen übersetzen und Therapiemaßnahmen

Warnung vor Missbrauch

Mehr zum Thema

Keine Fremdsprachen mehr nötig: KI wird zum Wunder-Übersetzer

OpenAI Sora kann Videos generieren: So realistisch sehen sie aus

Mit ChatGPT kann man jetzt richtig reden

Kommentare