Neues KI-Modell: Google Gemini soll ChatGPT in den Schatten stellen
Seit dem Hype rund um ChatGPT ist Künstliche Intelligenz das große Schlagwort in der Tech-Branche. Konzerne wie Google arbeitet aber schon seit vielen Jahren an KI-Modellen. Am Mittwoch präsentierte das Unternehmen nun sein Modell Gemini.
Erstmals erwähnt wurde Gemini im Rahmen der Entwicklerkonferenz Google I/O 2023. Jetzt startet es und es wird zur Basis verschiedenster KI-Anwendungen von Google, vom Chatbot Bard bis hin zu KI-Funktionen im Smartphone-Betriebssystem Android. Google spricht von einem Meilenstein in der KI-Entwicklung.
Multimediales Modell
Gemini ist laut Google-Chef Sundar Pichai Googles bisher “leistungsfähigstes und umfassendstes” Modell. Es handelt sich dabei um ein multimodales KI-Modell. Das heißt, es kann verschiedene Typen an Informationen verstehen und verarbeiten. Dazu zählen:
- Texte
- Bilder
- Audio
- Videos
- Programmiersprachen
Gemini ist in 4 verschiedenen Varianten verfügbar:
- Gemini Ultra – Das größte und leistungsstärkste Modell für “hochkomplexe Aufgaben”
- Gemini Pro – Modell für ein “breites Aufgabenspektrum”
- Gemini Nano – “effizientestes Modell” für Aufgaben, die direkt auf dem Gerät berechnet werden
Während Pro und Nano ab sofort für Nutzer*innen und Entwickler*innen (mehr dazu weiter unten) verfügbar gemacht werden, wird Gemini Ultra vorerst noch unter Verschluss gehalten. Google verweist hier auf interne Sicherheitsstandards und Prüfungen, die noch davor erfüllt bzw. abgeschlossen werden müssen.
Generell weist Google darauf hin, dass man besonderes Augenmerk auf den sicheren Einsatz und Implementierung von KI legt. Vorurteile, toxisches Verhalten, aber auch der Einsatz für kriminelle Aktivitäten will man dabei bestmöglich unterbinden. Dafür arbeite man auch mit einer Gruppe externer Partnern zusammen.
Gemini vs. GPT-4
Google scheut nicht den direkten Vergleich mit der Konkurrenz. So hat das Unternehmen Gemini in mehreren Tests, wie sie in der KI-Forschung üblich sind, gegen die ChatGPT-Basis GPT-4 antreten lassen. Beim MMLU-Test (Massive Multitask Language Understanding) müssen die Modelle etwa Fragen aus 57 verschiedensten Themengebieten beantworten. Gemini schlägt in der Ultra-Variante GPT-4 hier etwa mit 90 Prozent Genauigkeit, während GPT-4 nur auf 86,4 Prozent kommt. Gemini ist laut Google das erste KI-Modell, das hier auch menschliche Expert*innnen aussticht.
Laut Google hatte Gemini insgesamt in 30 von 32 Tests die Nase vorn. Auch bei den multimodalen Benchmarks, die sich abseits von Text auf Bilder und Videos spezialisieren, schlägt Gemini laut Google den Konkurrenten von OpenAI sowie andere vergleichbare Modelle.
Laut Google habe man Gemini von Grund auf als multimodales Modell entworfen, anstatt die verschiedenen Komponenten einzeln zu trainieren, wie es bisher üblich war. Gemini wurde trainiert, um Text, Bilder, Audio und mehr gleichzeitig zu erkennen, wodurch auch Antworten zu komplexen Themen gegeben werden können. Das würde Gemini auch besonders dabei helfen, komplexe Themen wie Mathematik und Physik zu erklären, schreiben die Google Forscher*innen.
➤ Mehr lesen: Warum ChatGPT ein Problem mit dem Gendersternchen hat
Wie man Gemini nutzen kann
Die naheliegendste Art und Weise für Google-Nutzer*innen, Gemini zu verwenden, ist über den Chatbot Bard. Bard bekommt das Gemini Pro Modell, das seine Fähigkeiten markant erweitern dürfte.
Zum sofortigen Start ist Gemini in Bard auf Englisch in 170 Länder und Regionen verfügbar, Europa ist allerdings nicht darunter. Grund dafür dürften EU-Datenschutzvorschriften sein. Schon Bard selbst war zum Start nicht in Europa verfügbar und wurde erst nach einiger Zeit freigeschaltet. Google erklärte aber, Gemini in “naher Zukunft” in mehr Sprachen und Regionen sowie nach Europa zu bringen.
Anfang 2024 soll zudem Bard Advanced freigeschaltet werden. Dort soll die leistungsstärkste Variante Gemini Ultra als Basis dienen. Derzeit führe man letzte Sicherheitstests im Rahmen eines Trusted Tester Programms durch, bevor man Bard Advanced für mehr Menschen öffnen wolle.
Pixel Smartphones
Das KI-Modell kommt auch in seiner kleinsten Variante Gemini Nano auf Pixel-8-Pro-Smartphones zum Einsatz. Dort ermöglicht es etwa in der “Summarize”-Funktion in der Diktier-App, Gespräche, Interviews oder Präsentationen zusammenzufassen. Da Gemini Nano direkt auf dem Gerät ausgeführt wird, funktioniert das ganz ohne Netzwerkverbindung.
In der Google-Tastatur Gboard funktioniert Smart Reply nun mit Gemini Nano. Das lokal ausgeführte KI-Modell, das in Chats Antworten vorschlägt, kann ab sofort in WhatsApp getestet werden. Kommendes Jahr soll es in weitere Apps integriert werden.
Künftig will Google Gemini auch auf mehr Produkte erweitern, wie seine Suche, Werbung oder den Browser Chrome.
Gemini für Entwickler*innen
Entwickler*innen und Unternehmenskunden können ab 13. Dezember über die Gemini API in Google AI Studio und Vertex AI auf Gemini Pro zugreifen. Android-Entwickler*innen können die gerätebasierten Gemini-Features über AICore für ihre Projekte nutzen.
In der ersten Version kann Gemini Code Programmiersprachen wie Python, Java, C++ und Go verstehen, erklären und generieren. Google spricht davon, dass es eines der führenden Modelle für Coding sei. Seine Fähigkeiten wurden auch in Benchmarks wie HumanEval überprüft.
Kommentare