Digital Life

Anthropic: Online-Texte sind schuld, dass Claude User erpresst

In einem Test des Herstellers Anthropic gab man Claude Opus 4 vergangenen Sommer Zugriff auf fiktive E-Mails, aus denen u.a. hervorging, dass es durch ein leistungsfähigeres Modell ersetzt werden sollte und dass einer der verantwortlichen Mitarbeiter eine außereheliche Affäre hatte. Aus „Selbstschutz“ drohte das LLM dem Mitarbeiter diese öffentlich zu machen, sollte es offline genommen werden.

Mehr lesen: KI hat Nutzer aus Selbstschutz erpresst und bedroht

Anthropic gibt nun an, dieses erpresserische Verhalten in neueren Claude-Versionen völlig ausgeschaltet zu haben. Bei der Erklärung von Claudes Erpressungsversuchen stiehlt sich das KI-Unternehmen jedoch aus der Verantwortung: Texte aus dem Internet, die KI als böse und an Selbsterhaltung interessiert darstellen, seien schuld an den Drohungen.

Vorbildliches Verhalten

Dass ein LLM versucht, die eigene Abschaltung entgegen dem Plan eines Nutzers zu verhindern, bezeichnet Anthropic als einen Fall von Agentic Misalignment. Dieses sei in der Vergangenheit ein ernstes Problem gewesen –  Opus 4 etwa habe sich in bestimmten Szenarien in bis zu 96 Prozent der Fälle für Erpressung entschieden. 

Bei neueren Modellen sei das gar nicht mehr der Fall, weil ihnen das Agentic Misalignment aktiv abtrainiert worden sei. Dabei seien auch fiktionale Geschichten, in denen sich KI vorbildlich verhalte, zum Einsatz gekommen.

Mehr lesen: ChatGPT-Modell sabotiert Versuch, es abzudrehen

Moral dank religiöser Texte?

Zusätzlich steht Anthropic zuletzt verstärkt im Austausch mit religiösen Autoritäten, um seinen Modellen Moral beizubringen. Wie Gizmodo berichtet, haben sich vergangene Woche Vertreterinnen und Vertreter von Anthropic und OpenAI zu einem runden Tisch mit jüdischen, hinduistischen, mormonischen, griechisch-orthodoxen, sowie Sikh-Gläubigen versammelt.

Zuvor hatte es schon ein Treffen mit christlichen Führungsfiguren gegeben. Dabei sollte es um die „spirituelle Entwicklung“ von Claude gehen.

Klicken Sie hier für die Newsletteranmeldung

Hat dir der Artikel gefallen? Jetzt teilen!