Illustration shows YouTube logo
© REUTERS / DADO RUVIC

Digital Life

GPT-4 wurde mit Transkripten von YouTube-Videos trainiert

Das Wissen, das einem die Chatbot-Software GPT-4 vermittelt, hat diese möglicherweise bei YouTube aufgeschnappt. Entwickler OpenAI hat offenbar Millionen Stunden an Videomaterial von dem Streaming-Dienst durch seine Übersetzungs-Software Whisper gejagt und seine Künstliche Intelligenz damit trainiert. Das berichtet die New York Times. Der Grund dafür sollen weitreichende Beschränkungen, auf legalem Weg an große Datenmengen zu gelangen, sein.

➤ Mehr lesen: GPT-4 schreckt nicht zurück, einen nuklearen Krieg anzuzetteln

Graubereich wird ausgenutzt

Die Rechtsexpert*innen von OpenAI haben festgestellt, dass die Nutzung von transkribierten YouTube-Videos unter "Fair Use" fällt. Wie The Verge berichtet, sieht Google die Sache etwas anderes. Die Richtlinien von YouTube untersagten es, unauthorisiert YouTube-Inhalte zu scrapen. Google scheint sich allerdings selbst der Vielzahl an nutzer*innengenerierten Videos von YouTube für das Training seiner KI bedient zu haben.

Um auf rechtlich sicherem Boden zu stehen, hat Google dafür offenbar seine Nutzungsrichtlinien verändert. Um es den hauseigenen KI-Entwickler*innen zu ermöglichen, Transkripte von YouTube-Videos zu verwenden, wurden Änderungen eingeführt, die genau an einem US-Feiertag veröffentlicht wurden - dadurch sollten sie möglichst unbemerkt bleiben.

➤ Mehr lesen: Microsoft Copilot: GPT-4 Turbo kann gratis genutzt werden

Bücher als Datenquelle mit großem Potenzial

Für KI-Entwickler*innen ist es ein immer größeres Problem, an große Mengen an Trainingsdaten zu gelangen. Damit konfrontiert ist auch Meta. Der Konzern kann offenbar nicht ungehemmt auf Facebook-Inhalte zugreifen, weil Richtlinien dies verhindern, die nach dem Cambridge-Analytica-Skandal eingeführt worden waren.

Bücher sind eine weitere potenzielle Datenquelle für KI-Unternehmen. Alle Inhalte, die frei verfügbar sind, wurden allerdings schon längst zum Teil von OpenAI GPT-4, Google Gemini und Co. Um neue Inhalte hinzuzufügen, wird überlegt, Lizenzen für Buchinhalte oder gleich ganze Verlage zu erwerben.

Hat dir der Artikel gefallen? Jetzt teilen!

Kommentare