Die TU Graz entwickelt authentische Ersatzstimmen für beeinträchtigte Personen, die künftig übers Handy genutzt werden könnten.
Forscher klonen natürliche Stimmen mit Künstlicher Intelligenz
Freude, Angst, Verärgerung: Emotionen lassen sich nicht nur sehen, sondern auch hören. Der Klang unserer Stimme kann Selbstbewusstsein oder Unsicherheit vermitteln und von anderen als charismatisch, nervig oder hochnäsig wahrgenommen werden. Generell macht die Stimme einen wichtigen Teil unserer Identität aus.
Manche Menschen verlieren jedoch genau diese Persönlichkeitskomponente – etwa wenn sie an chronischer Heiserkeit oder einer Erkrankung des Kehlkopfs leiden. Wird der Kehlkopf (Larynx) beispielsweise infolge von Kehlkopfkrebs entfernt, können Betroffene häufig nur noch mithilfe eines technischen Geräts, wie dem Elektrolarynx, sprechen.
➤ Mehr lesen: Sprach-KI von OpenAI imitiert die eigene Stimme
Diese Geräte sind bislang vor allem auf tiefe Frequenzen ausgelegt, da überwiegend Männer betroffen sind. Die erzeugte Stimme klingt dabei robotisch. Im Hinblick auf weibliche Stimmen mit höheren Frequenzen wurde bislang kaum geforscht und geeignete Produkte entwickelt.
Fakten
Laut Statistik Austria erhielten 47 Österreicherinnen 2024 die Diagnose Kehlkopfkrebs. 19 verstarben an den Folgen. Bei den Männern waren es 266 Diagnosen mit 127 Todesfällen.
Wird der Kehlkopf entfernt, kann eine elektronische Sprechhilfe wie der Elektrolarynx verwendet werden. Das tragbare Gerät verfügt über einen vibrierenden Kopf, der gegen den Hals oder neben den Mundwinkel gedrückt wird. Der vibrierende Schall wird in den Mund-Rachenraum transportiert. Durch Sprechbewegungen entstehen Worte.
Identität
Besonders Frauen leiden an dieser robotisch klingenden Stimme, weil sie nicht zu ihrer körperlichen Identität passt.
Texte eingesprochen
Um Betroffenen ein Stück ihrer stimmlichen Identität zurückzugeben, arbeitet Martin Hagmüller vom Institut für Signalverarbeitung und Sprachkommunikation an der TU Graz daran, eine möglichst natürliche weibliche und männliche Stimme künstlich zu erzeugen. Idealerweise soll diese jener Stimme entsprechen, welche die betroffene Person vor ihrer Beeinträchtigung hatte. Dafür kommen öffentlich verfügbare Datenbanken mit Sprachaufnahmen sowie eine eigene Datenbank mit österreichischem Deutsch zum Einsatz.
➤ Mehr lesen: Wie man ohne Kehlkopf sprechen kann
Zusätzlich werden Aufnahmen gesunder Sprecher verwendet, die dasselbe Material zweimal einsprechen: einmal mit normaler Stimme und einmal mithilfe eines Elektrolarynxes. Letzteres dient als Referenz für ein auf Künstlicher Intelligenz (KI) basiertes Modell. „Es lernt dabei, wie elektrolaryngeale Sprache strukturiert ist und wie sie in eine möglichst natürlich klingende Stimme umgewandelt werden kann“, sagt der Forscher der futurezone. In einem weiteren Schritt werden Aufnahmen von Personen ohne Kehlkopf oder mit chronischer Heiserkeit verwendet. Schauspielstudierende sprechen dasselbe Material anschließend möglichst lippensynchron erneut ein. Ziel ist ein sogenanntes „Mapping“, also eine systematische Zuordnung zwischen einer beeinträchtigten oder Ersatzstimme und einer gesunden Stimme.
Im Aufnahmestudio wird der gleiche Text zweimal eingesprochen: normal und mit Elektrolarynx.
© Benedikt Mayrhofer
Stimme und Alter
Das Alter der Betroffenen ist für die Rekonstruktion bedeutsam. Laut Hagmüller sind die meisten Patienten über 60 Jahre alt. „Würden sie mit einer rekonstruierten Stimme sprechen, die beispielsweise wie die einer 20-jährigen Person klingt, würde dies nicht authentisch wirken.“ Wenn Aufnahmen der eigenen gesunden Stimme aus der Zeit vor der Operation vorhanden sind – etwa ältere Sprachnachrichten oder Videos – kann das System diese nutzen, um die rekonstruierte Stimme individuell anzupassen. „Das System lernt, wie die betroffene Person mit einer gesunden Stimme geklungen hat und kann eine möglichst realistische und persönliche Stimmrekonstruktion erzeugen“, sagt der Experte.
Sind solche Aufnahmen nicht verfügbar, kann auch eine Ersatzstimme ausgewählt werden. „Häufig bieten sich dafür Stimmen von Familienmitgliedern an, da diese klanglich oft vergleichbar sind. Die ausgewählte Stimme kann anschließend weiter angepasst werden, sodass eine individuelle und authentische Ersatzstimme entsteht.“
In Geräte integrieren
Um die Ersatzstimme auch unterwegs zu nutzen, könnten bestehende Geräte verwendet werden, die viele Betroffene bereits nutzen. Diese dienen eigentlich dazu, die geringe Lautstärke ihrer Stimmen zu erhöhen. Denn in Umgebungen mit Hintergrundgeräuschen, wie etwa Restaurants, ist ein Gespräch oft nur möglich, wenn die Gesprächspartner sehr nah beieinandersitzen – die Kommunikation in größeren Gruppen ist nahezu unmöglich. „Einige Betroffene nutzen Headsets oder tragbare Verstärker, die beispielsweise um den Hals oder am Bauch getragen werden“, sagt Hagmüller. In Kombination mit der neuen Stimmverbesserung könnte das die Verständlichkeit deutlich steigern.
➤ Mehr lesen: YouTube-KI generiert Lieder mit Stimmen berühmter Sänger
Grundsätzlich sei es denkbar, das neue System in solche Geräte oder Smartphone-Apps zu integrieren. Damit die Stimmumwandlung auf einem Handy möglich wird, müsse die aktuell dafür notwendige Rechenkomplexität deutlich reduziert werden. Mit genügend Daten wäre es grundsätzlich möglich, mit aktuellen KI-Modellen schon eine sehr gute Qualität zu erreichen. Was es aber noch braucht, seien starke Computer und eine geringe Verarbeitungslatenz.
„Für manche Anwendungen ist es egal, wenn man etwas warten muss, bis die Stimme konvertiert ist. Will man das System im direkten Gespräch einsetzen, darf die Verarbeitung nicht mehr als ca. 50 bis 100 Millisekunden dauern“, sagt Hagmüller. Die Verzögerung würde sonst wie ein Echo wirken. Gelingt diese technische Herausforderung, könnten Betroffene wieder mit einer Stimme sprechen, die zu ihrer eigenen Persönlichkeit passt.
Gehör erkennt falsche Stimmen kaum mehr
Vor wenigen Jahren war es noch kein Problem, Sprachassistenten von Menschen zu unterscheiden. Heute klingen künstlich erzeugte Stimmen schon täuschend echt. Laut einer Studie der Queen Mary University of London schafft es unser Gehör kaum mehr, Stimmen, die mithilfe von Künstlicher Intelligenz (KI) erzeugt werden, zu erkennen.
In einem Experiment wurden Teilnehmenden 80 Sprachproben mit echten und KI-Stimmen vorgespielt. Während generische Stimmen, die von Grund auf neu erstellt wurden, noch relativ gut erkannt werden konnten, war die Herausforderung bei Stimmimitationen bestimmter Personen schon größer: 58 Prozent dieser Kopien wurden für echte Menschen gehalten – fast genauso oft wie echte Stimmen korrekt erkannt wurden (62 Prozent).
Tiefe neuronale Netze
Technisch basiert moderne Sprachsynthese auf tiefen neuronalen Netzen. Sie analysieren die Eigenschaften einer Stimme wie beispielsweise Tonhöhe, Klangform und zeitliche Muster. Eine Aufnahme von nur wenigen Minuten reicht aus, um typische Muster einer Person zu lernen und daraus ein Modell zu erstellen, das beliebige Sätze mit derselben Stimme erzeugen kann. Dafür kann frei verfügbare Software genutzt werden.
Diverse Chancen
Bekanntlich ermöglicht das auch Betrug. Täuschungen mittels „Voice Cloning“ haben in den vergangenen Jahren stark zugenommen, auch in Österreich. Dabei wird die imitierte Stimme einer Person für Anrufe von Verwandten genutzt, um an Geld zu kommen. Voice Cloning birgt aber auch ein großes Potenzial. Nicht nur kann die Technologie Menschen mit sprachlichen Einschränkungen helfen, sondern unter anderem auch Bildungsprogramme verbessern. Laut einer Studie kann KI-gestütztes Audio-Lernen die Motivation und das Leseengagement von Schülern steigern.
Außerdem können Stimmen in andere Sprachen geklont werden. So können Menschen sprachübergreifend kommunizieren und trotzdem ihre eigene Stimme behalten – mit großen Chancen für globale Kommunikation und kulturellen Austausch.
Kommentare