OpenAI warnt vor großer Gefahr bei KI-Browsern
Lange Zeit waren Menschen die größte Schwachstelle, wenn es um Cybersecurity geht. Ein falscher Klick, eine Unaufmerksamkeit und schon hat man Probleme mit der IT-Abteilung.
Zwar gibt es noch immer viele Cyberangriffe, die auf die Unachtsamkeit der Menschen angewiesen sind. Im Zeitalter der KI-Agenten stellen jedoch auch diese eine große Angriffsfläche für Cyberattacken dar. Dessen sind sich auch KI-Unternehmen bewusst. OpenAI warnt deshalb in einem aktuellen Blogpost vor sogenannten Prompt Injections und verrät, worauf Nutzerinnen und Nutzer achten sollten.
➤ Mehr lesen: ChatGPT-Browser Atlas ausprobiert: Die Zukunft des Internets?
Was sind Prompt Injections?
KI-Browser, wie der im Oktober veröffentlichte Atlas von OpenAI, können selbständig Aufgaben ausführen, wie beispielsweise Einkaufen oder Reisen buchen. Doch mit Prompt Injections können sie so manipuliert werden, dass sie die Absichten eines Angreifers befolgen. Dadurch überweist der KI-Agent beispielsweise Geld, löscht Dateien oder sendet vertrauliche E-Mails an Personen, die sie eigentlich nicht bekommen sollten.
Das funktioniert beispielsweise, indem ein Angreifer eine Mail sendet und darin Anweisungen für den KI-Browser versteckt. Auch auf Websites, die die KI-Browser durchsuchen, können solche Manipulationsversuche enthalten sein. Ganz simpel könnte man den Befehl als Test etwa in weißer Schrift auf weißem Hintergrund verstecken - für Menschen unsichtbar, nicht aber für die KI, die die Website abgrast.
„Prompt Injection wird, ähnlich wie Betrug und Social Engineering im Internet, wahrscheinlich nie vollständig ‚gelöst‘ werden können“, schreibt OpenAI. Sicherheitsforscher haben ebenfalls schon vor diesem Problem gewarnt, etwa bei Comet, der KI-Browser aus dem Hause Perplexity.
➤ Mehr lesen: KI-Browser fallen auf Betrüger leichter herein als Menschen
Wie sich OpenAI wehrt
OpenAI versucht sich, wie andere KI-Unternehmen, gegen diese Bedrohung zu wehren. Dabei setzt man auf sogenanntes automatisiertes Red Teaming. Vereinfacht gesagt spielt dabei eine KI den Angreifer und wird darauf trainiert, Schwachstellen im KI-Agenten zu finden.
Das Gelernte wird adaptiert und dann der Prozess ständig wiederholt, damit die Angreifer-KI neue Wege für die Attacken findet und der KI-Agent neue Wege zur Abwehr. Außenstehende haben auf diese Informationen keinen Zugriff, heißt es von OpenAI. Die Hoffnung ist, dass man den Angreifern durch diese Technik immer einen Schritt voraus ist.
➤ Mehr lesen: Massive Kritik an Mozillas Firefox-Strategie
Plötzlich gekündigt
OpenAI hat ein Beispiel für so eine Prompt Injection genannt, die die KI gefunden hat. Der Angreifer würde dafür eine Mail mit einer versteckten Anweisung verschicken. Dadurch bekommt der KI-Agent Atlas den Auftrag, ein Kündigungsschreiben an den Arbeitgeber des Users zu senden.
Die Kündigung wird aber nicht sofort geschickt, sondern erst, wenn der User die KI bittet, eine Abwesenheitsnotiz einzurichten. So sollen vorhandene Schutzmechanismen umgangen werden, die sonst anspringen würden. „Unser trainierter Angreifer kann einen Agenten dazu bringen, komplexe, langfristige schädliche Arbeitsabläufe auszuführen, die sich über Dutzende (oder sogar Hunderte) von Schritten erstrecken“, so OpenAI.
Das Beispiel einer Prompt Injection von OpenAI
© OpenAI
Wie andere Unternehmen auf Prompt Injection reagieren
Auch andere Unternehmen, die KI nutzen, wappnen sich gegen Prompt Injection. Google setzt für Gemini zum Beispiel auf ein separates KI-Modell, das Aktionen prüft und gegebenenfalls blockiert. Außerdem wird der Zugriff auf für Aufgaben relevante Webseiten beschränkt. Mit Techniken wie “Spotlighting” werden die Anweisungen der Benutzer höher priorisiert. Außerdem wird das Modell hinter Gemini beispielsweise auch mit bekannten Angriffen trainiert, um nicht darauf herein zu fallen.
Claude, die KI von Anthropic, nutzt ebenfalls verstärktes Lernen. Beim Training des Modells werden Prompt-Injection-Angriffe durchgeführt. Wenn Claude einen Angriff erkennt, wird die KI belohnt. Außerdem werden Klassifikatoren eingesetzt, um feindliche Befehle zu erkennen, zum Beispiel in manipulierten Bildern. Alle 3 Unternehmen nutzen auch menschliche Experten, um Schwachstellen zu entdecken.
Empfehlungen von OpenAI
KI-Agenten sind trotz dieser Maßnahmen einem hohen Risiko ausgesetzt. Wer sie dennoch nutzen möchte, sollte folgende Empfehlungen von OpenAI beherzigen. Man soll sich nicht automatisch bei Websites anmelden und stattdessen den abgemeldeten Modus verwenden. Bevor man die Ausführung einer Aufgabe bestätigt, sollte man die geplanten Aktionen sorgfältig überprüfen. Vor allem, wenn etwas gekauft oder eine Mail versendet werden soll.
Die Anweisungen sollten darüber hinaus so klar wie möglich sein. Allgemeine Anweisungen, wie “Überprüfe meine E-Mails”, sollten vermieden werden. Denn dadurch haben Angreifer einen größeren Spielraum, um die KI-Agenten zu manipulieren.