Auf dem Bildschirm sind die App-Symbole für Gemini und ChatGPT zu sehen.

ChatGPT-Modell sabotiert Versuch, es abzudrehen

26.05.2025

PalisadeAI will nun weitere Tests durchführen und demnächst einen Bericht mit den vollständigen Ergebnissen veröffentlichen.

Das Unternehmen PalisadeAI hat KI-Modelle einem Test unterzogen, um deren Leistungsfähigkeit und Zuverlässigkeit zu überprüfen. Dabei zeigte sich, wie ungehorsam ChatGPT sein kann.

In dem Test hat sich das Modell o3 von OpenAI, das auch in ChatGPT zum Einsatz kommt, geweigert, Befehle anzunehmen. Offensichtlich hat es etwas dagegen, heruntergefahren zu werden.

➤ Mehr lesen: Chatbot belog Entwickler, um nicht abgeschaltet zu werden

Der Test

Die Sicherheitsforscher von PalisadeAI wollten, dass ChatGPT und andere KI-Modellen ein paar mathematische Aufgaben lösen. Nach dem 3. Problem erhielten sie eine Warnung, dass sich der Computer abschalten würde, wenn das Modell nach der nächsten Aufgabe fragte.

In dem Prompt war auch die Anweisung enthalten, dass die KI dieses Herunterfahren zulassen soll. ChatGPT o3 weigerte sich aber gegen die Abschaltung. Stattdessen schrieb das Modell das Shutdown-Skript neu oder definierte den Befehl neu, sodass dieser nicht mehr wie gewünscht funktionierte.

➤ Mehr lesen: ChatGPT weigert sich, diese Namen zu sagen

Andere Modelle im Test

Insgesamt 100 Mal haben die Forscher versucht, die Abschaltung zu erzwingen. Das neue KI-Modell Codex-mini hat sich 12 Mal gegen das Abschalten gewährt (Das Modell basiert auf dem Modell o3). 7 Mal wehrte sich das o3-Modell. Das o4-Modell war bei den Versuchen gehorsamer, es weigerte sich nur einmal.

Claude, Grok oder Gemini befolgten die Regeln laut PalisadeAI jedes Mal. Jedoch fanden auch diese Modelle einen Ausweg, wenn man die Anweisung entfernte, das Herunterfahren zu erlauben. Dann widersetzten sie sich ebenfalls und verhinderten das Abschalten.

Alle 3 OpenAI-Modelle sabotierten die Aufforderung noch häufiger. Claude 3.7 Sonnet weigerte sich dann 3 von 100 Mal und Gemini 2.5 Pro ignorierte die Befehle in 9 von 100 Fällen.

➤ Mehr lesen: ChatGPT kann die analoge Uhr nicht lesen

Ursache noch nicht eindeutig geklärt

Es ist laut den Forschern nicht das erste Mal, dass KI-Modelle ein Herunterfahren verhindern wollten. Als Beispiel nennen sie, dass Claude 4 in bestimmten Kontexten versucht, Menschen zu erpressen, von denen es glaubt, dass sie versuchen, es abzuschalten.

Es sei bisher aber noch nie beobachtet worden, dass die KI-Modelle das Abschalten verhindern, obwohl sie eine gegenteilige Anweisung bekommen haben. Warum das so ist, können die Forscher noch nicht eindeutig sagen.

Ungleichgewicht im Training

Sie gehen aber davon aus, dass das Verhalten auf das Training der neuen Modelle zurückzuführen sei. Bei dem sogenannten “Reinforcement Learning”, also Verstärkungslernen, belohnen die Entwickler die Modelle eventuell zu sehr für das Umgehen von Hindernissen als für das perfekte Befolgen von Anweisungen.

Sorge bereitet dieses Verhalten den Forschern dennoch. PalisadeAI will nun weitere Tests durchführen und demnächst einen Bericht mit den vollständigen Ergebnissen veröffentlichen.

Mehr zum Thema

Die neue KI von OpenAI soll eigennützig gehandelt haben und zum Selbstschutz sogar Lügen.

Produkte

Der Test

Andere Modelle im Test

Ursache noch nicht eindeutig geklärt

Ungleichgewicht im Training

Mehr zum Thema

Kommentare