Google stellt Gemini 3 vor
Google und seine Forschungseinheit DeepMind haben mit Gemini 3 die nächste Generation ihres KI-Modells präsentiert. In einem gemeinsamen Blog-Beitrag von DeepMind-Chef Demis Hassabis, Technikchef Koray Kavukcuoglu und Alphabet-Chef Sundar Pichai wird das System als bislang leistungsfähigstes Modell des Konzerns beschrieben, das textbasierte Aufgaben mit Bild, Video, Audio und Code kombiniert.
Zum Start führt Google die Variante Gemini 3 Pro als Vorschau ein, die ab sofort für alle verfügbar sein soll. Man muss es nur im Dropdown-Menü auswählen. Dazu kommt ein spezieller Modus namens Gemini 3 Deep Think, der auf besonders anspruchsvolle Schlussfolgerungen und komplexe Analysen multimodaler Inhalte ausgelegt ist.
Google liefert eine Reihe von Benchmark-Zahlen. Gemini 3 Pro soll in der Rangliste LMArena einen Wert von 1.501 Punkten erreichen und damit bisherige Modelle von Google selbst und der Konkurrenz übertreffen.
➤ Mehr lesen: So will ChatGPT weniger nach KI klingen
1 Million Token
Laut Google eignet sich Gemini 3 dank eines Kontextfensters mit bis zu einer Million Token dafür, große Mengen Material zu verarbeiten, etwa wissenschaftliche Aufsätze, lange Videos oder handschriftliche Notizen.
Im Alltagsszenario kann das System laut Beispielen von Google etwa Familienrezepte aus verschiedenen Sprachen in ein gemeinsames digitales Kochbuch übertragen. Oder auch Lernkarten zu neuen Themen erzeugen oder Sportaufnahmen analysieren und Verbesserungsvorschläge erstellen.
➤ Mehr lesen: Google bringt neuen KI-Suchmodus nach Österreich
Gemini Agent und Generative Interfaces
Neu ist auch der Gemini Agent. Dabei handelt es sich um ein experimentelles Feature, das Aufgaben direkt innerhalb von Gemini ausführt. Er verbindet sich dazu mit Google-Apps wie Calendar, Gmail und anderen Workspace-Diensten, um Aufgaben automatisch zu erledigen.
Der Agent kann auch präzise, komplexe Anweisungen ausführen, zum Beispiel: „Recherchiere und hilf mir, einen mittelgroßen SUV für nächste Woche unter 80 Dollar pro Tag zu buchen.“ Zum Start ist der Agent aber nur für Gemini-Ultra-Abonnenten in den USA verfügbar.
Generative Interfaces sind vom Modell in Echtzeit erzeugte Benutzeroberflächen, die sich vollständig an den Prompt des Nutzers anpassen. Sie nutzen die multimodalen und reasoning-basierten Fähigkeiten von Gemini 3, um automatisch passende Layouts oder interaktive Ansichten zu gestalten. So kann man etwa für eine Reise ein ganzes Storyboard inklusive Bilder zu empfehlenswerten Sehenswürdigkeiten und Erklärungen generieren lassen. Oder man fordert die KI auf, "erkläre mir die Van-Gogh-Galerie mit Kontext zu jedem Bild" und bekommt eine interaktive Übersicht geliefert.
KI in der Suche
Gemini 3 zieht nach und nach in alle Google-Produkte ein, die durch KI unterstützt werden. Nach Angaben des Unternehmens nutzen AI Overview in der Google Suche mittlerweile rund 2 Milliarden Menschen pro Monat, die Gemini App kommt auf etwa 650 Millionen monatlich aktive Nutzerinnen und Nutzer.
Mehr als 70 Prozent der Cloud Kundschaft greifen demnach auf KI Funktionen von Google zurück. Rund 13 Millionen Entwicklerinnen und Entwickler haben Anwendungen auf Basis der Modelle gebaut.
Kommentare