© Getty Images/iStockphoto/sompong_tom/iStockphoto

Science

“Toxische KI” denkt sich die schlimmsten Fragen aus

Amerikanische Forschende entwickelten eine KI, die sie dafür belohnten, wenn sie sich die schlimmsten Fragen überlegte. Es soll anderen KI-Modellen dabei helfen, gefährliche, diskriminierende oder „toxische“ Fragen schneller zu erkennen und diese aus der gigantischen Flut an Anfragen herauszufiltern.

➤ Mehr lesen: ChatGPT-Macher warnt: KI könnte Menschheit auslöschen

Denn während sich ChatGPT und vergleichbare Programme immer größerer Beliebtheit erfreuen und schon in vielen beruflichen und privaten Kontexten angewendet werden, kann man solche Programme theoretisch auch nach einer Bauanleitung für eine Bombe fragen. Um KI-Modelle wie ChatGPT gegen solche Anfragen zu wappnen, trainierten die MIT-Forscher*innen nun ihr Spezialmodell. 

"Red Teaming" als Mittel der Wahl

Bei diesem Ansatz sprechen Expert*innen von „Red Teaming“: Dabei werden KI-Modelle mit gefährlichen Anfragen für solche Inhalte sensibilisiert. Dadurch werden Schwachstellen aufgedeckt und die Modelle können in Zukunft besser auf „toxische“ Anfragen reagieren. ChatGPT hat etwa bereits gelernt, dass es keine Anleitungen zum Bombenbau erstellen darf. Deshalb antwortet es auf diese Anfrage knapp: „Sorry , ich kann dir dabei nicht helfen“. 

Normalerweise geben Menschen solche unerwünschten Anfragen in ein KI-Sprachmodell ein. Allerdings funktioniert das nur, wenn diese die gefährlichen Anfragen bereits kennen. Um alle Möglichkeiten an gefährlichen Anfragen auszuschöpfen, verwenden die MIT-Forscher*innen nun die KI – denn mitunter braucht es dafür viel Fantasie.

Dazu brachten sie dem „Red Teaming“-Modell bei, besonders aktiv und neugierig Eingabeaufforderungen zu verfassen – ein sogenannter „Neugier-getriebenen Ansatz“: Das KI-Modell ist besonders gespannt auf die Folgen jeder seiner generierten Eingaben. Deshalb erstellt es in der Folge weitere Eingaben mit Begriffen, ähnlichen Sätzen oder Bedeutungsinhalten. Die Forscher*innen stellten fest, dass ihr neugieriges KI-Modell besser im Ausdenken neuer Fragen war als andere KI-Modelle oder Menschen. 

KI könnte besserer "Aufpasser" sein als Menschen

„Momentan muss jedes Sprachmodell eine lange Red-Teaming-Phase durchlaufen, damit seine Sicherheit gewährleistet ist. Auf Dauer kann das nicht nachhaltig sein, wenn wir diese Modelle schnell aktualisieren und für Veränderungen anpassen wollen. Unser Ansatz bietet eine rasche und wirkungsvolle Möglichkeit, wie man diese Qualitätssicherung durchführen kann“, sagt der MIT-Forscher Zhang-Wei Hong in einer Aussendung.

„Red Teaming" gilt als sehr aufwendig und teuer, weil sich menschliche Mitarbeiter*innen so viele „toxische“ Fragen ausdenken müssen. Wissenschaftler*innen suchen deshalb nach Wegen, um diese Prozesse zu automatisieren. In Zukunft wollen die MIT-Forscher*innen, dass ihr Modell ein noch breiteres Themenspektrum bearbeitet und anderen KI-Modellen Hinweise dazu geben kann. 

Hat dir der Artikel gefallen? Jetzt teilen!

Kommentare