© Getty Images/iStockphoto / iLexx/iStockphoto

Science
02/15/2019

Zu gefährlich: Musk-Institut will KI-Textgenerator nicht veröffentlichen

Ein neues Sprachmodell von OpenAI kann täuschend echte Nachrichtenartikel und Kommentare verfassen - weswegen es unter Verschluss bleibt.

Das von Elon Musk gegründete und finanziell unterstützte KI-Forschungsinstitut OpenAI hat eine künstliche Intelligenz entwickelt, die Nachrichtenartikel und Kurzgeschichten verfassen kann. Die Ergebnisse des „großangelegten unüberwachten Sprachmodells“, das den Namen GPT2 trägt, seien dermaßen gut, dass man fürchtet, es könnte missbraucht werden, beispielsweise um Fake-News, Kommentare oder Bewertungen in Massen zu produzieren.

OpenAI veröffentlichte mehrere Text-Beispiele auf Englisch, die die Leistungsfähigkeit des Sprachmodells demonstrieren sollen. Um einen Text zu generieren, werden lediglich ein oder zwei Sätze für den Beginn benötigt, der Rest wird automatisch erzeugt. Bereits nach ein oder zwei Durchläufen wird Text erzeugt, der nicht als computergeneriert erkennbar ist. GPT2 konnte zur Überraschung der Forscher auch Fragen beantworten, Artikel zusammenfassen und Text in andere Sprachen übersetzen.

Ungewöhnlicherweise wurde das Sprachmodell nicht einmal auf diese Anwendungen trainiert. Es sollte lediglich vorhersagen, welches Wort auf ein vorangestelltes Wort folgen wird. Durch den gewaltigen Datensatz im Hintergrund funktioniert das dermaßen gut, dass das Sprachmodell vermeintlich neue Inhalte erstellen kann.

Das Sprachmodell sei allein zwölf Mal größer als die bisher führenden Vertreter, was auch auf die gewaltige Datenmenge im Hintergrund zurückzuführen ist. Als Trainingsdaten wurden mehr als 40 Gigabyte an Text genutzt. Diese wurden über Reddit gesammelt - jeder Link, der mehr als drei Upvotes erhielt, wurde in das Modell aufgenommen. Damit ist der Datensatz mehr als 15 Mal so groß als bei bisherigen Projekten.

"Anderen fallen boshaftere Anwendungen ein"

Obwohl die Forscher viel positives Potenzial sehen, fürchten sie derzeit aber eher den Missbrauch des Sprachmodells, weswegen derzeit nur eine funktional stark eingeschränkte Version von GPT-2 ohne den Datensatz veröffentlicht wurde. „Wir müssen noch experimentieren, um herauszufinden, was man alles damit machen kann“, sagt Jack Clark, Head of Policy bei OpenAI, gegenüber dem Guardian. „Wenn man nicht alle Möglichkeiten eines Modells kennt, muss man es etwas anstupsen, um es herauszufinden. Es gibt viele Menschen, denen viel besser boshafte Anwendungen dafür einfallen als uns.“