"Größer als ChatGPT": Google-KI macht aus Text Musik
Dieser Artikel ist älter als ein Jahr!
Dass künstliche Intelligenz aus Texteingaben Bilder erstellen kann, ist keine Neuigkeit mehr. Und auch in der Musikbranche wird KI bereits eingesetzt, wobei meist einzelne Instrumente imitiert werden. Dass sie ein ganzes Musikstück zaubert, ist hingegen selten. Und die KI MusicLM von Google macht das ausgesprochen gut.
Bisher gab es schon einige Versuche, um aus Sprachbefehlen Musik entstehen zu lassen. Sogar ChatGPT-Entwickler OpenAI hat mit seinem Modell "Jukebox" einen eigenen Ansatz dafür entwickelt. Aufgrund der technischen Schwierigkeiten und begrenzten Trainingsdaten sind die meisten Modelle aber nicht in der Lage, Lieder mit komplexen Kompositionen oder guter Sound-Qualität zu produzieren.
Musikerstellung fast geknackt
Mit Googles MusicLM könnte sich das ändern. KI-Wissenschaftler Keunwoo Choi, der sich mit KI-generierter Musik beschäftigt, nennt die Technologie sogar "größer als ChatGPT".
MusicLM wurde mit einem Datensatz aus 280.000 Stunden Musik trainiert, wodurch das Programm in der Lage sei, Stücke mit "signifikanter Komplexität" zu erstellen. Nicht nur die Komposition, auch die Wiedergabe sei qualitativ hochwertig.
Google bietet Kostproben an
Auf einer Website gibt Google einige Kostproben, wozu ihre KI bereits fähig ist. So entstand aus der Eingabe "Der Hauptsoundtrack eines Arcade-Spiels. Es ist schnell und optimistisch, mit einem eingängigen E-Gitarren-Riff. Die Musik ist repetitiv und leicht zu merken, aber mit unerwarteten Geräuschen wie Beckenschlägen oder Trommelwirbeln." ein 30-sekündiger Clip, der sich hören lassen kann.
Die künstliche Intelligenz kann jedoch mehr als kurze Lieder produzieren. So baut das System etwa auch auf existierenden Melodien aufbauen, die gesummt, gesungen, gepfiffen oder mit einem Instrument gespielt werden. Dazu können auch Überthemen wie "Oper", "Chorus" oder "Jazz" eingegeben werden.
Auch Musik-KI macht Fehler
MusicLM ist jedoch nicht fehlerlos, ganz im Gegenteil. Die Qualität vieler Produktionen lässt noch zu wünschen übrig, was sich auf die Trainingsmethode zurückführen lässt. Außerdem kann das Modell nicht mit Sprache umgehen. Anstatt Gesang gibt die Software meistens unverständliches Kauderwelsch aus.
Die Forscher*innen sind sich auch bewusst, dass solche Musikmodelle die Tendenz haben, ihre rechtlich geschützten Trainingsdaten oft 1:1 wiederzugeben. Laut dem Paper der Google-Mitarbeiter*innen war das in Experimenten bei nur einem Prozent der Lieder der Fall.
Rechtliche Fragen noch offen
Dieser Wert scheint jedoch zu hoch zu sein, um MusicLM für ein größeres Publikum zur Verfügung zu stellen. "Wir erkennen das Risiko einer potenziellen Veruntreuung kreativer Inhalte im Zusammenhang mit MusicLM an“, steht etwa im Papier.
Problematisch ist nicht nur, ob die generierten Werke dem Original zu sehr ähneln, sondern auch, inwiefern die Originale zum Training solcher Systeme genutzt werden dürfen. So laufen bereits Urheberrechtsverfahren gegen einige Bildgeneratoren, bei denen die Kläger*innen mit der Missachtung des Vervielfältigungsrechts argumentieren.
Auch das könnte ein Grund sein, weshalb Google mit seinen KIs noch nicht einer breiten Öffentlichkeit zur Verfügung stellt, sondern sie erst in einem geschützten wissenschaftlichen Umfeld weiterentwickelt.
Für Forschungszwecke ist das Data Mining, also die Sammlung und Speicherung von Daten, um damit etwa eine KI zu trainieren, weitestgehend erlaubt. Rechtlich interessant wird es erst, wenn daraus ein Businessmodell entstehen soll.
Kommentare