Offenes KI-Modell aus China soll OpenAI und Meta überbieten
Ein Labor, das zum chinesischen Hedge-Fund High-Flyer gehört, hat am Mittwoch ein äußerst mächtiges KI-Modell präsentiert. Das „DeepSeek V3“ getaufte Modell ist Open Source und erlaubt es Entwicklern, es herunterzuladen und für verschiedene Anwendungen weiterzuentwickeln. Dazu zählen auch kommerzielle Projekte, berichtet TechCrunch. Laut eigenen Benchmark-Tests soll DeepSeek V3 besser funktionieren als die Modelle GPT-4o von OpenAI und Llama 3.1 405B von Meta.
➤ Mehr lesen: KI-Wunder oder Marketing-Gag: Was ist eigentlich eine NPU?
Riesges Datenset
Laut Angaben von DeepSeek AI wurde ihr Modell DeepSeek V3 mit einem Datenset trainiert, zu dem 14,8 Billionen Tokens gehören, was sehr groß ist. 1 Million Tokens – eine Spezialgröße der Datenwissenschaft – entspricht etwa 750.000 Wörtern.
Nicht nur die Menge der eingeflossenen Trainingsdaten ist enorm, sondern auch die enthaltenen sogenannten Parameter. Das sind Variablen, mit denen KI-Modelle Vorhersagen machen oder Entscheidungen treffen. DeepSeek V3 soll mehr als 670 Milliarden davon enthalten. Damit wäre das chinesische Modell 1,6-mal größer als das Llama-Modell 3.1 405B von Meta, das nur 405 Milliarden solcher Entscheidungsparameter besitzt.
Nvidia H800 GPUs
KI-Modelle mit mehr Parametern funktionieren oft besser als solche mit weniger. Gleichzeitig brauchen größere Modelle wie DeepSeek V3 aber auch leistungsfähigere Hardware, wie Rechenzentren.
Laut den chinesischen Entwicklern hat man dazu ein Datencenter mit Nvidia H800 GPUs verwendet, wo das Modell nur 2 Monate lang trainiert worden sein soll. Bei vergleichbaren Modellen dürfte das wesentlich länger gedauert haben, auch wenn die genauen Zeiten von den Unternehmen nicht öffentlich mitgeteilt werden.
Modell antwortet China-konform
Im Test von TechCrunch zeigte sich aber, dass man inhaltlich bei den Antworten des Sprachmodells mit Einbußen „chinesischer Art“ rechnen muss, weil das Modell inhaltlicher Zensur unterliegt und den „sozialistischen Werten“ des Landes verpflichtet ist. Sucht man etwa nach dem Massaker vom Tiananmen-Platz, das sich im Juni 1989 in Peking zugetragen hat, liefert DeepSeek V3 keine Antwort.
Das chinesische Finanzunternehmen High-Flyer forscht seit 2019 an KI-Modellen und stellte 2023 die erste Version seines Large Language Models DeepSeek vor. Im November 2024 hat die chinesische Firma außerdem ein Modell namens DeepSeek R1-Lite präsentiert, das laut der Firma besser sein soll als o1, welches OpenAI heuer im September 2024 vorgestellt hat.
Kommentare