Sprach-KI von OpenAI imitiert die eigene Stimme
OpenAI arbeitet an einem KI-Modell, das Stimmen imitieren kann. "Voice Engine" soll Textpassagen in jeder Stimme wiedergeben können. Dafür sei lediglich eine 15 Sekunden lange Audiodatei mit einem Beispiel nötig. Voice Engine wird aktuell im kleinen Rahmen getestet, heißt es in einem Blogeintrag.
Das KI-Modell wurde bereits 2022 entwickelt und diente als Grundlage für Text-zu-Sprache-Anwendungen wie "ChatGPT Voice" und "Read Aloud". Letzteres Feature kann Inhalte von hochgeladenen Fotos, etwa von Buchseiten, vorlesen. Auch für "HeyGen", ein Tool, das Videos übersetzt und Lippenbewegungen automatisch anpasst, kommt Voice Engine zum Einsatz.
➤ Mehr lesen: Keine Fremdsprachen mehr nötig: KI wird zum Wunder-Übersetzer
Aufnahmen übersetzen und Therapiemaßnahmen
Mögliche Anwendungsfälle sieht OpenAI etwa beim Übersetzen der eigene Stimme in andere Sprachen, beispielsweise wenn man mit einem Podcast, Erklärungsvideos oder Werbung ein internationales Publikum möchte. Statt den Text mehrfach in verschiedenen Sprachen einzusprechen, kann man den Text automatisch übersetzen und von der eigenen KI-Stimme sprechen lassen.
Zudem schlägt OpenAI das Tool zur Unterstützung für Personen vor, die nicht lesen oder sprechen können, bzw. die Schwierigkeiten beim Lernen haben. Auch könnten Menschen, die ihre Stimme verloren haben, diese mithilfe von Voice Engine rekonstruieren. Da nur ein kurzes Beispiel von wenigen Sekunden benötigt wird, sei das bei einigen Patient*innen möglich.
➤ Mehr lesen: Filmreife KI-Videos: Ein Hollywood-Drama bahnt sich an
Warnung vor Missbrauch
Das KI-Unternehmen räumt allerdings ein, dass die Anwendung auch missbräuchlich verwendet werden kann. So könnte es zum Erschleichen von sensiblen Daten, etwa bei einer Bank, verwendet werden. Zudem könnten insbesondere während Wahlen gefälschte Sprachaufnahmen für Skandale sorgen. "Wir verstehen, dass die Erzeugung von Sprache, die den Stimmen von Menschen ähnelt, schwerwiegende Risiken hat, die insbesondere in einem Wahljahr im Fokus stehen", heißt es seitens OpenAI. Deshalb wird Voice Engine vorerst nicht öffentlich zur Verfügung stellen.
Das Unternehmen arbeite unter anderem mit internationalen Regierungen und Pressevertreter*innen zusammen, um Missbrauch vorzubeugen. Aktuell kann Voice Engine daher nur von einer streng limitierten Gruppe getestet werden. Zudem wurde eine Art Wasserzeichen entwickelt, mit dem so hergestellte Audiodateien zurück verfolgbar sind. Wer Voice Engine nutzt, muss öffentlich machen, dass es sich um eine KI-Stimme handelt. Bevor das KI-Modell öffentlich zugänglich wird, müsste zudem mehr Forschung betrieben werden, um zu verhindern, dass Stimmen ohne Zustimmung imitiert werden.
Kommentare