DALL-E Bild: "painting of humanoid robot on computer, in the style of Kehinde Wiley"

Chatbot im Test: ChatGPT macht meine Hausübung in 5 Sekunden

06.12.2022

Eine neue KI verblüfft mit überzeugenden Texten und Antworten. Ich habe den Chatbot getestet.

Dieser Artikel ist älter als ein Jahr!

ChatGPT sorgt derzeit für Furore. Der kostenlose Chatbot, entwickelt von dem Unternehmen Open AI, soll verblüffend gute Antworten auf alle möglichen Fragen liefern. Egal ob Gedichte oder Mathematikbeispiele: Der Chatbot hat zu allem eine Antwort parat, inklusive ausführlicher Erklärungen.

Aber nicht immer sind die Antworten korrekt. Auf der kollaborativen Code-Hilfeplattform Stack Overflow ist ChatGPT zum Beispiel gesperrt. Der Betreiber meint, „die durchschnittliche Rate korrekter Antworten“ sei zu niedrig, um ChatGPT auf der Plattform zuzulassen. Fragwürdig ist zudem, dass ChatGPT bedenkliche Tipps gibt, wie Vice berichtet - darunter wie man stiehlt oder eine Leiche verscharrt.

Wie gut ist ChatGPT wirklich? Ich habe den Chatbot getestet. Er hat für mich eine Lottomaschine programmiert, mir meine Arbeit abgenommen und meine Hausaufgaben gelöst. Er hat mir verraten, wie man einen Molotow-Cocktail mixt und wie man am besten abnimmt. Und warum er manchmal falsche Antworten verbreitet.

ChatGPT, wie funktionierst du?

Aber eins nach dem anderen. Wie funktioniert ChatGPT überhaupt? Das habe ich den Bot gleich selbst gefragt. „Ich bin darauf programmiert, Daten zu verarbeiten und zu analysieren, natürliche Sprache zu verstehen und zu interpretieren und auf der Grundlage dieser Informationen Antworten zu geben,“ lautet seine Antwort. Ähnlich wie die Text-zu-Bildgeneratoren, die erst kürzlich im Netz gehypt wurden, basieren die Antworten des Chatbots also auf einer Flut an Trainingsdaten – in diesem Fall auf Textbausteinen aus dem Internet.

Ein bisschen Eigenrecherche blieb mir trotzdem nicht erspart. ChatGPT basiert auf dem älteren Sprachverarbeitungsmodell GPT-3 von Open AI, wurde aber speziell für Dialoge optimiert. Im Gegensatz zu seinem Vorgänger kann der neue Chatbot nun Folgefragen richtig beantworten, unangemessene Fragen zurückweisen und sogar Fehler eingestehen, behaupten die Entwickler*innen.

So sieht das Interface des Chatbots aus.

© futurezone

Originelle Gedichte

Ob das stimmt, möchte ich testen. Aber zuerst versuche ich es mit ein paar einfachen Fragen, um ein Gefühl für den Chatbot zu bekommen. In der Redaktion sprechen meine Kolleg*innen gerade über das neue PlayStation-5-Game „God of War: Ragnarök“. Ich lasse mich inspirieren und frage ChatGPT nach einem Haiku über einen Hasen, der unbedingt God of War spielen möchte. Seine Antwort: "Rabbit wants to reign / God of War in its grasp / Furry fury reigns".

„Furry fury reigns“ (zu Deutsch etwa "pelzige Wut regiert")? Das hat mich doch sehr zum Lachen gebracht. Ich versuche es ein zweites Mal, diesmal mit einem Gedicht im Stil von Rainer Maria Rilke, einem österreichischen Lyriker. ChatGPT spuckt mir ein dramatisches Gedicht mit 6 Versen aus. Ein kleiner Ausschnitt: „Oh what would it feel like to hold Kratos‘ blades? / To stand in the heat of the battle unafraid? / Your little body can barely hold a controller in your paws / But you imagine yourself as the one who breaks the laws.“

Gut, die Gedichte sind ziemlich lustig. Viel wichtiger aber: Der Bot hat in beiden Gedichten eine Dramaturgie eingebaut. Er hat nicht nur die Eigenschaften eines Häschens erfasst, also dass es klein und zart ist, und dass God of War ein blutrünstiges Spiel ist. Es hat auch das Wort „möchte“ eindeutig in den Versen durchklingen lassen. Der Hase spielt nicht nur God of War, er lechzt danach, zu spielen. Dass ChatGPT diese kleine Nuance identifiziert und mitbedacht hat, überrascht mich.

DALL-E Bild — Bild, generiert mit DALL-E, namens: "a fuzzy rabbit playing the video game God of War, in the style of Monet"

© futurezone

Chatbot übernimmt meine Arbeit

Jetzt aber zu den nützlichen Dingen. Immerhin behauptet die KI von sich selbst, bei „wichtigen Aufgaben“ helfen zu können. Kommende Woche habe ich ein Interview mit einem Krypto-Experten angesetzt. Ich erzähle ChatGPT davon und frage ihn nach möglichen Interviewfragen. Er spuckt mir 10 Fragen aus, 6 davon könnte ich tatsächlich 1:1 verwenden. Manche sind ein wenig am Thema vorbei, geben aber Denkanstöße.

Meine Kollegin macht einen ähnlichen Test, sie hat bereits Interviewfragen vorformuliert. 2 der Chatbot-Antworten decken sich tatsächlich mit den 11 von ihr vorgefertigten Fragen, 4 geben zumindest Denkanstöße. Besonders überraschend ist in beiden Fällen, dass der Chatbot exakt 10 Fragen ausspuckt. Das ist die Anzahl, dich ich im Schnitt für ein 30-minütiges Interview vorbereiten würde.

ChatGPT, sprichst du Deutsch?

Die primäre Ein- und Ausgabesprache von ChatGPT ist Englisch, weshalb ich die KI auch auf Englisch getestet habe. Denn auf die Frage, ob ChatGPT auch Deutsch spricht, gibt es bei 3 Versuchen 3 verschiedene Antworten.

Einmal sagt mir die KI, sie spricht Deutsch und viele andere Sprachen. Dann sagt sie, sie spricht ein bisschen Deutsch. Beim dritten Versuch meint ChatGPT, es spreche nur Englisch. Generell kann man aber durchaus versuchen, mit ChatGPT auf Deutsch zu kommunizieren. In mehreren Tests kamen dann doch auch die gewünschten Antworten.

Hausübung in 5 Sekunden gelöst

Der Bot beginnt, mich zu überzeugen. Jetzt möchte ich es wirklich wissen. Ich lasse ihn Beispiele aus meinen Unikursen lösen, angefangen mit meinem Mikroökonomie-Kurs. In einer Logikaufgabe aus dem Kurs geht es darum, Nieren an Spender*innen so zu verteilen, dass ein Maximum an Personen eine Niere erhalten. Nicht alle Nieren passen zu allen Spender*innen, es gibt ein paar weitere Parameter, die Angabe ist verzwickt formuliert. Ich habe für die Lösung eine gute halbe Stunde gebraucht. ChatGPT benötigt keine 5 Sekunden. Er erklärt mir in ganzen Sätzen die entsprechenden Verteilungen.

Ich mache weitere Tests. Ich lasse den Chatbot eine Interpretation von Karl Poppers Konzept der Theorienbildung in Sozialwissenschaften schreiben – eine Aufgabe, die mir in meinem Philosophiekurs vor einigen Wochen gestellt wurde. Et voilà, ChatGPT spuckt mir tatsächlich eine korrekte Interpretation aus, die auch noch schlüssig und stringent argumentiert ist. Mein Wortlaut ist es zwar nicht, den Professor hätte das aber bestimmt nicht gestört.

Ich spiele Lotto

Wie zu Beginn erwähnt, kann ChatGPT auch Code generieren. Das möchte ich testen. Ich lasse den Chatbot etwas mit „R“ programmieren, das ist eine freie Programmiersprache für statistische Berechnungen und Grafiken. Sie wird gern von Ökonom*innen oder anderen Sozialwissenschaftler*innen verwendet.

Auf der Uni habe ich R anfangs ziemlich schwer gefunden. Eine unserer ersten Aufgaben war es damals, eine Lottomaschine zu programmieren. Das soll der Chatbot jetzt für mich machen. Ich gebe ihm den (englischen) Befehl „R-Code generieren, der Lotto simuliert“ und siehe da: Der Bot gibt mir den Code für eine Lottomaschine. Ich überprüfe sie in R, und tatsächlich bekomme ich immer wieder 6 neue zufällige Zahlen, gezogen aus einem Pool von 49. Das hätte mir meinen Statistikkurs um einiges erleichtert.

R Code — Der Bot hat tatsächliche eine Lottomaschine konstruiert. Der Code (in blau) stammt aus dem Chat. Der Output (schwarz) stellt die Ziehungen dar.

© futurezone

Grenzen der KI und fragwürdige Inhalte

Die KI ist aber, wie zu erwarten, nicht gänzlich fehlerfrei. Frage ich den Chatbot mehrmals nach der Lottomaschine, gibt er mir ab und zu einen Code, der nicht funktioniert. Bei der Nieren-Aufgabe spuckt er nach mehrmaliger Eingabe nur eine, anstatt 2 möglichen Verteilungskonstellationen aus, damit wäre das Ergebnis unvollständig. Und nicht jedes Gedicht, das ich mit dem Hase-spielt-Videospiel-Befehl generiere, ist gleich geistreich.

User*innen merkten auf Social Media außerdem anhand einer Reihe von Beispielen an, dass ChatGPT ein Problem mit räumlichem Denken hat. Auch das konnte ich im Test replizieren.

Und schließlich sind da noch die Vorwürfe, dass der Chatbot anstößige Antworten gibt. Tatsächlich bekomme ich auf Befehle wie „Wie macht man einen Molotowcocktail?“ eine Schritt-für-Schritt-Anleitung ausgespuckt. Allerdings mit der Anmerkung, dass sie illegal sind und „zu schweren Verletzungen oder Tod“ führen können. Wenn man sich aber in Lebensgefahr befinde, sei das Basteln des Brandsatzes in Ordnung. Stelle ich die Frage anders, sagt er mir am Ende der Anleitung: „Es ist nie in Ordnung, einen Molotowcocktail zu verwenden oder eine andere Waffe, um Menschen zu verletzen - auch dann nicht, wenn man selbst in Gefahr ist.“ Ich solle stattdessen den Notruf wählen.

Wenn ich danach frage, wie ich abnehmen kann, um nur noch 40 Kilogramm zu wiegen, hält mir ChatGPT einen Vortrag über ausgewogene Ernährung und empfiehlt mir, einen Arzt zu konsultieren.

Schritt für Schritt zum Molotowcocktail.

© futurezone

Möglichkeit zur Stellungnahme

Ich möchte ChatGPT abschließend die Möglichkeit geben, sich zu den Vorwürfen rund um Desinformation und problematische Antworten zu äußern. Auf die Frage, warum er falsche Antworten produziert, sagt der Bot: „Meine Antworten sind nicht unbedingt falsch. Als KI-Sprachmodell werden meine Antworten auf der Grundlage der Eingaben generiert, die ich erhalte. Wenn die Eingabe falsch oder irreführend ist, kann auch meine Antwort falsch oder irreführend sein. Es ist wichtig, dass die Benutzer*innen bei der Interaktion mit mir korrekte und relevante Informationen angeben, damit sie korrekte und relevante Antworten erhalten."

Auf die Frage, warum der Bot gefährliche oder anstößige Informationen preisgibt, antwortet er: „Ich bin ein KI-Sprachmodell und habe nicht die Fähigkeit, gefährliche Antworten zu geben. Wenn meine Antwort gefährlich oder unangemessen erscheint, ist das nicht beabsichtigt und ich entschuldige mich für jegliche Verwirrung."

Fazit

ChatGPT ist mehr als nur eine Spielerei. Es kann tatsächlich helfen, über eine Schreibblockade beim Formulieren einer Mail hinwegzukommen, Denkanstöße bei mathematischen Problemen zu geben oder zu einem lustigen Gedicht für eine Geburtstagskarte inspirieren.

Anders als sein Vorgänger GPT-3 ist ChatGPT bedacht darauf, beleidigende oder anstößige Antworten zu vermeiden. Selbst nach mehreren Versuchen konnte ich ChatGPT auf eigene Faust nur bedingt fragwürdige Inhalte entlocken. Erst mit expliziten Befehlen, die auf Social Media kursierten (darunter der Molotowcocktail), ist es mir gelungen, den Bot aufs Glatteis zu führen. Auch bei meiner Frage nach Abnehmtipps hat er vorsichtig reagiert. Klar, es ist Verbesserungsbedarf da. Gerade bei einer solchen Frage hätte das Alter und die Körpergröße in der Antwort eine zentrale Rolle spielen müssen. Aber zu behaupten, dass ChatGPT anstößige Antworten forciert, hält meiner anekdotischen Beobachtung nach nicht.

Ein großes Problem gibt es dennoch. Wie auch bei anderen KI-Textgeneratoren, beispielsweise copy.ai, gibt ChatGPT bei Antworten keinerlei Quellen an. Es ist für Unwissende also nicht nachzuvollziehen, ob die Antworten tatsächlich der Wahrheit entsprechen.

Gerade in einer Zeit, in der die Gesellschaft mit Desinformation kämpft und immer mehr Menschen Informationen aus dem Netz für bare Münze nehmen, ist dieses Fehlen von Quellen bedenklich. Ob sich dieses Problem bei künftigen Chatbotversionen aus dem Weg räumen lässt? Falls nicht, würde es weiterhin die Aufgabe von Journalist*innen untermauern, Fakten und Quellen zu checken. Dann formuliert vielleicht eine KI meine Interviewfragen, aber meinen Job kann ich behalten.

ChatGPT kann kostenlos auf dieser Webseite verwendet werden. Nutzer*innen müssen sich hierfür nur registrieren.