Immer mehr wird zum Streitthema, ob OpenAI und andere Texte, Bilder und Videos von menschlichen Urheber*innen gestohlen haben.

Immer mehr wird zum Streitthema, ob OpenAI und andere Texte, Bilder und Videos von menschlichen Urheber*innen gestohlen haben.

© EPA/QUIQUE GARCIA

B2B

7 Dollar für ein Nacktbild: So viel kosten Trainingsdaten für KI

Wer ein KI-Modell trainiert, braucht sehr viele Daten. Deshalb wird für diese auch immer mehr Geld geboten. Denn zwischen den großen Tech-Unternehmen, die im Rennen um die beste Künstliche Intelligenz mitspielen wollen, ist ein Wettstreit ausgebrochen: Sie alle eifern um die besten Modelle.

➤ Mehr lesen:  Ob wir wollen oder nicht, Künstliche Intelligenz geht uns alle an

Millionengeschäft

Lange haben die Tech-Unternehmen für das Training ihrer Modelle einfach das gesamte Internet nach Texten, Bildern und Videos abgegrast. Doch das wirft nicht nur moralische Fragen auf, sondern auch rechtliche. Außerdem wollen die Anbieter von KI-Modellen auch nicht mehr wahllos alle Inhalte in ihre Modelle einspeisen. Stattdessen möchten sie zumindest ein Stück weit kontrollieren können, was darin einfließt. 

Ein stärkerer Fokus liegt deshalb immer mehr auch auf der Qualität der Daten. Wie die Nachrichtenagentur Reuters berichtet, geben Unternehmen wie Amazon, OpenAI, Google und Meta mittlerweile Millionenbeträge dafür aus, dass sie geeignete Trainingsdaten für ihre KI-Modelle erhalten. 

Nacktbilder sind besonders teuer

Es hat sich sogar ein eigener Wirtschaftszweig gebildet, der sich auf die Bereitstellung von Trainingsdaten spezialisiert. Ein solches Unternehmen ist Defined.ai. Deren CEO, Daniela Braga, sagte gegenüber Reuters, dass ein einziges Bild für solche Trainingszwecke mittlerweile für 2 Dollar gehandelt werde. Für ein Kurzvideo würden bis zu 4 Dollar fällig, ein längeres Video könne bis zu 300 Dollar kosten. 

Besonders teuer sind offenbar Nacktfotos: Der Preis für ein einziges Bild liegt demnach bei 7 Dollar. Grund dafür ist, dass für Nacktbilder besondere Regeln bei der Bereitstellung und Verwendung gelten. Solche Bilder müssen oft extra von Menschen überprüft werden, die sicherstellen, dass es sich um keine illegalen Inhalte handelt, wie kinderpornografisches oder gestohlenes Material. Andernfalls würde die KI von solchen Inhalten beeinflusst und „lernen“, dass entsprechende Bilder erwünscht sind.

Komplette Plattformen 

Mittlerweile versuchen die großen Tech-Unternehmen aber nicht nur, einzelne Bilder, Videos und Texte zu kaufen, sondern die gesamten Inhalte von Plattformen wie Shutterstock oder Photobucket zu lizensieren. Photobucket ist etwa eine Internetplattform, auf die Menschen bis 2017 kostenlos Fotos hochladen und diese dann in ihre Webseiten einbauen konnten. Seit 2017 kostet das Service für Nutzer*innen aber Geld. Reuters hat nun erfahren, dass diese Inhalte künftig auch zum Training von KI-Modellen verwendet werden könnten. 

Laut CEO Ted Leonard gibt es Gespräche mit KI-Unternehmen, die zwischen 5 Cent und einem Dollar für ein Bild oder Video zahlen. Mit einer Lizenzvereinbarung dürften die Unternehmen dann auf sämtliche Inhalte von Photobucket zugreifen. Der bekannte Foto-Marktplatz Shutterstock soll wiederum bereits Verträge mit Meta, OpenAI und Google abgeschlossen und damit pro Unternehmen zwischen 25 und 50 Millionen Dollar verdient haben.

➤ Mehr lesen: Neuronale Netze: Wie eine Künstliche Intelligenz laufend dazulernt

Deutsches Verlagshaus

OpenAI hat währenddessen auch Verträge mit großen Verlagen wie Axel Springer und Thompson Reuters abgeschlossen. Auch mit der Nachrichtenagentur AP hat das KI-Unternehmen einen laufenden Vertrag. Im Falle des deutschen Verlagshauses Axel Springer sollen dafür nicht nur 10 Millionen Dollar herausgesprungen sein, sondern OpenAI soll für das Verlagshaus auch eine eigene KI-Strategie entwickelt haben. 

Bilder und Videos gestohlen?

Bereits vor einigen Jahren – lange bevor KI durch Tools wie ChatGPT ins öffentliche Bewusstsein gerückt ist – haben die Tech-Unternehmen damit angefangen, ihre Modelle mit Daten aus dem Internet zu trainieren. Mittlerweile sehen sich Unternehmen wie OpenAI deshalb aber auch mit Klagen konfrontiert: Die New York Times sieht etwa ihre Urheberrechte dadurch verletzt, dass OpenAI auch ihre Texte zum Training seiner Modelle verwendet hat.

Oft halten sich Unternehmen wie OpenAI allerdings auch bewusst bedeckt, wenn es um die Herkunft ihrer Trainingsdaten geht. So auch bei ihrem neuesten Projekt – dem KI-Video-Tool Sora. CTO Mira Murati sagt nur, dass dafür freie Videos im Internet verwendet wurden. 

➤ Mehr lesen: OpenAI Sora kann Videos generieren: So realistisch sehen sie aus

➤ Mehr lesen: Filmreife KI-Videos: Ein Hollywood-Drama bahnt sich an

YouTube, das OpenAI Konkurrent Google gehört, will das aber nicht glauben. Dessen CEO Neal Mohan glaubt, dass OpenAI YouTube-Videos dafür verwendet hat. Er sieht deshalb einen Verstoß gegen die Nutzungsrichtlinien von YouTube. Die Rechte der Urheber*innen der Videos könnten dadurch verletzt worden sein. Auch Videos und Bilder von anderen Plattformen, wie Instagram oder Facebook, die zu Meta gehören, könnten für Soras Training genutzt worden sein.

Die Diskussion über das Training von KI-Modellen und die moralischen und rechtlichen Fragen, die sich daraus ergeben, dürfte also weitergeführt werden. Fest steht allerdings, dass es für die Unternehmen, die KI-Modelle trainieren wollen, dadurch nicht unbedingt einfacher wird. 

Hat dir der Artikel gefallen? Jetzt teilen!

Kommentare