Science

Google enthüllt spektakuläre Video-KI Lumiere

Google hat einen neuen KI-Videogenerator vorgestellt: Lumiere. Damit sollen sich realistische, vielfältige und vor allem flüssige Videos generieren lassen.

In einem Video zeigt Google, was mit Lumiere alles möglich ist. Neben der üblichen Text-zu-Video-Funktion soll Lumiere auch Fotos animieren und vorhandene Videos editieren können. So kann etwa eine Person im Video per Texteingabe zu einer Blumenskulptur werden oder ein echtes Auto zu einem Lego-Auto. Auch Kleidung einer Person im Video kann getauscht werden. Ebenfalls kann der Stil eines Videoclips per Texteingabe geändert werden – etwa von fotorealistisch zu Zeichentrick.

Ganzheitliches Video statt Key-Frames

Laut Google wird das alles möglich, weil ein neuer Ansatz für das KI-Modell gewählt wurde. Viele Videogeneratoren erzeugen Key-Frames und füllen dann die Lücken auf. Man kann sich das in etwa wie bei einem KI-Bildgenerator vorstellen. Gibt man etwa ein: „Sirup wird auf einen Pancake gegossen“, wird das erste Bild erstellt, bei dem die Kanne über dem Pancake ist, das zweite Bild, bei dem der Sirup auf dem Pancake trifft und das dritte Bild, bei dem der Sirup den Pancake bedeckt und nichts mehr aus der Kanne kommt. Danach werden, auf Basis dieser generierten Bilder, die Zwischenbilder erzeugt. Dazu kommt noch ein drittes Modell, das die kleinen generierten Frames zu einem höherauflösenden Video hochrechnet. Das funktioniert zwar, sorgt aber oft für ruckelige Bewegungen oder unschöne Artefakte und Bildfragmente.

Bei Lumiere kommt zwar ebenfalls ein Modell zur Erhöhung der Auflösung zum Einsatz, davor wird das Video aber ganzheitlich generiert. Möglich sei dies durch eine Raum-Zeit-Architektur, die das gesamte Video mit einem Durchlauf des Modells generiert.

Keine Wunder-KI

Derzeit kann Lumiere so Clips erzeugen, die aus 80 Frames bei 16fps bestehen. Daraus ergibt sich ein 5 Sekunden langes Video in der Auflösung 1.024 x 1.024 Pixel. Das KI-Modell hat noch weitere Grenzen. So ist es nicht designt, um Videos mit mehreren Kameraeinstellungen zu generieren. Auch Übergänge zwischen Szenen sind nicht möglich. Dies seien Probleme, die man sich mit künftiger Forschung annehmen müsse.

Außerdem baue Lumiere auf einem vorhandenen Text-zu-Bild-Generator auf Pixelbasis auf. Deshalb müsse nach wie vor ein Modell genutzt werden, um die niedrig-generierten Frames höherauflösend zu skalieren. Der Idealfall sei, dass auch das künftig in nur einem Modell vereint wird.

Selbst ausprobieren kann man Lumiere derzeit nicht. Unbekannt ist auch, ob Google Lumiere als Open Source zur Verfügung stellen wird oder vorhat, es irgendwann in seine eigenen KI-Produkte zu integrieren, wie etwa dem Chatbot Bard oder Gemini.

Für das KI-Tool Gemini musste Google schon kurz nach der Ankündigung heftige Kritik einstecken. Beim Video, das die Fähigkeiten der KI zeigen sollte, wurde offensichtlich geschummelt.

Mehr lesen: Google hat das Gemini-KI-Video gefaked

Klicken Sie hier für die Newsletteranmeldung

Hat dir der Artikel gefallen? Jetzt teilen!