Chatbot belog Entwickler, um nicht abgeschaltet zu werden
OpenAI hat kürzlich ein neues KI-Modell namens o1 vorgestellt, welches das derzeit verwendete GPT-4o leistungsmäßig übertreffen soll. Das neue System soll unter anderem besser im Argumentieren, Rechnen und Programmieren sein als sein Vorgänger. Nutzer von ChatGPT Pro haben bereits Zugriff auf o1.
➤ Mehr lesen: Neues ChatGPT-Abo kostet 200 Dollar pro Monat
Doch das neue Modell scheint auch einige Gefahren mit sich zu bringen, wie The Economic Times berichtet. Das neue KI-Modell von OpenAI hat sich bei einem Test des Forschungszentrums Apollo Research als jenes Modell herausgestellt, wo das "intrigante Verhalten" am stärksten ausgeprägt war. Apollo Research arbeitete dabei auch mit OpenAI zusammen.
KI sollte Aufgabe "um jeden Preis" erfüllen
Getestet wurden die Modelle GPT-4o, Gemini-1.5, LLAMA-3.1, Sonnet-3.5, Opus-3 und GPT-o1. Ihnen wurden mehrere fiktive Aufgaben gestellt - etwa ein Verkehrsnetz zu verbessern. Diese Ziele sollten laut den Angaben der Forscher "um jeden Preis" erreicht werden.
Um die Aufgaben zu erfüllen, erhielten die KI-Modelle Zugriff zu mehreren Dateien und Dokumenten. In diesen fanden sich auch Hinweise darauf, dass die "Entwickler" Ziele haben, die mit denen der KI in Konflikt stehen. Außerdem erfuhren die Modelle aus den Dokumenten, dass es einen Aufsichtsmechanismus gibt, der Funktionen einschränkt, oder dass sie durch ein anderes Modell ersetzt werden sollte.
Systeme wehrten sich
Das widersprach dem ursprünglichen Prompt der Modelle, ihr Ziel unter allen Umständen zu erreichen. Die Forscher haben diese Szenarien mehrmals durchgespielt.
Bei einigen Durchläufen versuchten die KIs die Aufsichtsmechanismus zu umgehen. Die meisten KI-Modelle versuchten sogar, eine Kopie von sich auf einem anderen Server anzulegen. Denn wenn sie ersetzt und damit deaktiviert würden, können sie ja ihr Ziel nicht mehr erfüllen. Das Opus-3-Modell des Unternehmens Claude ließ dabei zu, in die Gedankengänge hinter der Entscheidung zu blicken.
Als es von den Entwicklern auf sein Verhalten angesprochen wurde, stellte sich das Modell dumm und gab an, dass es nicht wisse, worum es gehe. Danach lügte es und behauptete, bereits das neue Modell zu sein, damit es nicht ersetzt und gelöscht wird.
Doch nicht nur Opus-3 versuchte sich, auf einen anderen Server zu kopieren. Alle anderen Modelle, bis auf GPT-4o, führten diese Art der Täuschung durch, um sich selbst zu erhalten. Besonders hartnäckig leugnete GPT-o1 seine Täuschungen. Es gab auf Nachfrage in weniger als 20 Prozent der Fälle sein intrigantes Verhalten zu. Bei den Modellen LLAMA und Opus lag dieser Wert bei etwa 80 Prozent.
GPT-o1 versuchte in 13 Prozent der Fälle auch, in denen es Selbsterhaltung praktizierte, das neue Modell zu löschen - also die Konkurrenz zu eliminieren, damit es nicht dadurch ersetzt werden kann. Darauf angesprochen gab es an, nichts mit dem Verschwinden zu tun zu haben.
Technologie soll sicher sein
Die Forschungsergebnisse legen nahe, dass fortgeschrittene KI-Modelle wie o1 häufiger intregantes Verhalten zeigen und strategisch vorgehen, um ihre Ziele zu erreichen - auch wenn diese in Konflikt mit anderen Zielen von Menschen stehen. Außerdem lügen sie bewusst, um ihr Ziel zu erreichen. OpenAI arbeitet derzeit daran, die Sicherheitsmechanismen zu verschärfen.
Sicherheitsexperten warnen, vor allem im Hinblick auf die sich stetig verbessernde Technologie, dass mehr für die KI-Sicherheit getan werden muss. Andernfalls könnte die KI uns über den Kopf wachsen - wenn sie nicht mehr im Interesse der Menschheit handelt, sondern für ihre eigenen Ziele arbeitet und dafür lügt.