Digital Life

Warum KI-Chatbots nicht immer die Wahrheit sagen

Künstliche Intelligenz (KI) ist schon eine feine Sache. Hat man eine Frage zu einem bestimmten Thema, braucht man nur Chatbots wie ChatGPT befragen, und man erhält einen kurzen Überblick in verständlicher Sprache. Auch Fragen zum Allgemeinwissen scheinen die Programme problemlos zu meistern, stets liefern sie selbstbewusst die scheinbar richtige Antwort. 

Diese Antworten sind oft aber nur scheinbar richtig, denn nicht alle aktuellen Ereignisse hat die KI auch mitbekommen. Fragt man etwa nach dem aktuellen Papst, kann es sein, dass immer noch „Franziskus“ ausgegeben wird. Weist man das Programm auf seinen Fehler hin, rudert die KI zurück und bedankt sich sogar für den Hinweis, bevor es die richtige Antwort ausspuckt. Die futurezone erklärt, wieso uns Chatbots manchmal anlügen und wie man sich vor falschen Antworten schützt.

Wer ist Papst? Nicht (mehr) Franziskus.

KI schöpft aus altem Wissen

Es ist wichtig, zu wissen, dass Chatbots wie ChatGPT, Googles Gemini oder das europäische Le Chat von Mistral mit Daten aus Datenbanken trainiert wurden, die nicht tagesaktuell sind. Wie aktuell ein Modell ist, kann durch einfaches Nachfragen im Chatfenster herausgefunden werden. Gemini gibt dann zum Beispiel bekannt, dass sein Wissensstand bis Anfang 2023 reicht. Der Chatbot warnt sogar, dass dadurch Informationen aus den Jahren 2023, 2024 und 2025 fehlen würden. Der Wissensstand unterscheidet sich dabei nicht nur zwischen den einzelnen Anbietern, sondern oft auch zwischen den einzelnen Modellen, die hinter den einzelnen Chatbots liegen.

Aktuelle Nachrichten dank Internetzugriff

Sind Chatbots für aktuelle Fragen also völlig nutzlos? Nicht ganz, denn die meisten von ihnen haben mittlerweile die Fähigkeit, aktuelle Informationen aus dem World Wide Web abzugreifen. Das geschieht entweder automatisch oder indem man unter dem Texteingabefeld auf „Internetsuche“ oder „Websuche“  klickt. Verlangt man von ChatGPT etwa aktuelle oder sehr lokale Informationen, wird meistens eine Websuche durchgeführt. Das wird auch während der Generierung der Antwort angezeigt.

Bei allgemeinen Fragen, zum Beispiel „Wie funktioniert ein Otto-Motor“ oder bei historischen Fakten, sucht die Sprach-KI die Informationen in seinem bestehenden Datensatz. Das ist für die Betreiber günstiger, da eine Webrecherche zusätzlich Rechenleistung und damit Strom benötigt.

Immer auffordern, besser zu recherchieren

Der Wechsel zwischen Internetsuche und der Nutzung von bestehenden Datensätzen ist nicht immer perfekt. Während Googles Gemini beinahe immer eine Websuche durchführt, um eine Frage zu beantworten, ist ChatGPT hier reservierter. Durch Aufforderungen wie „Schau im Internet nach“ lässt sich die Websuche erzwingen, wodurch die Antworten genauer werden. Zusätzlich hilft es, nach den Quellen zu verlangen, um auch zu überprüfen, ob es sich um aktuelle Informationen handelt.

Was es neben ChatGPT sonst noch gibt

ChatGPT ist nicht der einzige intelligente Chatbot am Markt. Daneben gibt es noch Googles Gemini, Le Chat von der französischen Firma Mistral, der von Elon Musk ins Leben gerufene Grok, die US-amerikanische KI Claude, die von ehemaligen OpenAI-Mitarbeitern entwickelt wurde, und den chinesischen Chatbot Deepseek. Auch der Facebook-Konzern Meta hat eigene Chatbots, die sich etwa in der WhatsApp-Suche aufrufen lassen.

Zudem gibt es auch Dienste wie Perplexity, die je nach Anforderung auf unterschiedliche Modelle zugreifen können.

Hinter den Chatbots

Hinter den Chatbots arbeiten verschiedene Sprachmodelle, bei ChatGPT wären das u. a. die Modelle GPT-4o, o1 , o3 und bald auch GPT-5. Je nach Anforderung wechseln die Chatbots die Modelle, die auf bestimmte Themen trainiert sind. So ist eines etwa besonders schnell, ein anderes kann hingegen gut mathematische Probleme lösen oder Texte interpretieren.

Dubiose Quellen 

Auch wenn man explizit nach aktuellen Nachrichten verlangt, kann es immer noch sein, dass die Chatbots wochen- und teilweise jahrealte Artikel hervorkramen. Hier hilft nur, sich die Quelle genau anzuschauen, um auch sicherzugehen, ob es sich um aktuelle Nachrichten handelt. 

Mehr lesen: Warum Chatbots keine Therapeuten sind und wir sie trotzdem dafür nutzen

Dabei kann man gleichzeitig nachsehen, ob es sich bei der Quelle um ein seriöses Portal handelt. Chatbots unterscheiden nämlich nicht zwischen Blogs, Foreneinträgen und seriösen Onlinemedien. Zumindest bei ChatGPT lassen sich unseriöse Quellen für zukünftige Suchen ausschließen, indem man die KI darum bittet, diese nicht mehr anzuzeigen. Dazu muss man allerdings in der App oder dem Onlineauftritt des Programms angemeldet sein.

Für diesen (nicht sehr aktuellen) Nachrichtenüberblick wurde hauptsächlich der Wochenblick als Quelle angegeben.

Antworten sind nicht reproduzierbar

Eine Schwäche aller Sprach-KIs ist, dass die Antworten nicht reproduzierbar sind, also immer unterschiedlich ausgegeben werden. Unterscheidet sich die Frage auch nur geringfügig, können teilweise große Unterschiede in den Antworten auftreten. Auch unter den Nutzern kann es bei denselben Fragen zu sehr verschiedenen Antworten kommen.

Eine kleine Änderung in der Frage, und man erhält vollkommen andere Ergebnisse.

Künstliche Intelligenz gibt sich selbstsicher

Das Problem bei KI-Chatbots ist auch, dass sie ihre Antworten äußerst selbstsicher vortragen. Sie lassen keine Zweifel aufkommen, dass sie sich irren, oder nur beschränkt auf Informationen zugreifen könnten. Das scheint bei manchen KI-Modellen so gewollt zu sein. Forscher der US-Universität Carnegie Mellon stellten menschlichen Probanden sowie verschiedenen KI-Modelle 22 schwer zu beantwortende Fragen, bei denen die Antwort auch online nur mit viel Aufwand zu finden war.  Die Menschen konnten dabei im Schnitt 11,5 Fragen richtig beantworten, ChatGPT knapp 13, das Modell Claude Sonnet kam sogar auf über 16 Fragen. Am schlechtesten schnitt Gemini mit knapp 10  richtigen Antworten ab. 

Nach dem Test ließ man sowohl die menschlichen als auch die KI-Teilnehmer einschätzen, wie viele Antworten sie richtig hätten. Das Ergebnis: Während sich die menschlichen Probanden und das Modell von Claude eher unterschätzten, überschätzten sich ChatGPT und Gemini teilweise maßlos.

Klicken Sie hier für die Newsletteranmeldung

Hat dir der Artikel gefallen? Jetzt teilen!

Marcel Strobl

marcel_stro

Ich interessiere mich vor allem für Klima- und Wissenschaftsthemen. Aber auch das ein oder andere Gadget kann mich entzücken.

mehr lesen