Rakuten Group hat heute Rakuten AI 3.0 vorgestellt, das als „Japans größtes Hochleistungs-KI-Modell“ beworben wird. Es soll eine selbstentwickelte 671B-Parameter MoE-Modell sein und wurde kostenlos open source gestellt. Innerhalb weniger Stunden wurde jedoch im Community-Forum HuggingFace die config.json entdeckt, in der deutlich „model_type: deepseek_v3“ steht – eine japanisch feinabgestimmte Version von DeepSeek V3.
(Vorgeschichte: Bloomberg: DeepSeek wächst stark, China stellt eine „große Bedrohung“ für die US-KI-Hegemonie dar)
(Hintergrund: DeepSeek V4 kündigt den Verzicht auf Nvidia an! Wie steht Chinas „Rebellenkampf“ um die KI-Rechenleistung?)
Rakuten Group, gegründet und geleitet von Hiroshi Mikitani, hat heute mit großem Auftritt Rakuten AI 3.0 veröffentlicht. Es wird als „Japans größtes Hochleistungs-KI-Modell“ positioniert, vollständig kostenlos unter Apache 2.0 open source gestellt und soll in mehreren japanischen Benchmark-Tests GPT-4o übertreffen. Nach nur wenigen Stunden nach der Ankündigung wurde im Community-Forum eine peinliche Details entdeckt.
Auf der HuggingFace-Modellseite steht klar: „config.json“ zeigt: model_type: deepseek_v3, architectures: DeepseekV3ForCausalLM.
Mit insgesamt 671B Parametern, 37B für Inferenz, einem Kontextfenster von 128K Tokens – jede Zahl entspricht exakt DeepSeek V3. Mit anderen Worten: Rakuten AI 3.0 ist kein eigenständiges Modell, sondern basiert auf DeepSeek V3 und wurde mit japanischen Daten feinabgestimmt.
Noch interessanter ist die offizielle Herkunft dieses Modells. Rakuten AI 3.0 ist das Ergebnis des GENIAC-Programms (Generative AI Accelerator Challenge), das vom japanischen Wirtschaftsministerium (METI) und der New Energy and Industrial Technology Development Organization (NEDO) gemeinsam vorangetrieben wird. Die japanische Regierung hat dabei einen Teil der Trainingskosten finanziert.
In der Ankündigung erwähnt Rakuten nur, dass sie „die besten Ergebnisse der Open-Source-Community nutzen“, ohne DeepSeek explizit zu nennen.
DeepSeek V3 wurde im Dezember 2024 veröffentlicht. Es ist das Open-Source-Flaggschiffmodell des chinesischen KI-Unternehmens DeepSeek. Die Trainingskosten lagen bei nur etwa 5 bis 6 Millionen US-Dollar – deutlich günstiger als GPT-4, mehr als 20-mal billiger. Gleichzeitig erreichte es in mehreren Benchmark-Tests Top-Werte, teilweise übertraf es sogar Top-geschlossene Modelle und sorgte für Aufsehen in der KI-Branche.
Da DeepSeek unter der Apache 2.0-Lizenz steht, kann jeder das Modell kommerziell nutzen, feinabstimmen und neu veröffentlichen – rechtlich unproblematisch. Doch „legal“ und „ehrlich offen“ sind zwei unterschiedliche Dinge.
Hier eine Übersicht der Parameter-Konfiguration von Rakuten AI 3.0:
DeepSeek hat bereits eine interessante Wirkung entfaltet. Ein japanischer E-Commerce-Riese wie Rakuten, der mit staatlichen Subventionen Rechenleistung nutzt, um ein chinesisches Open-Source-Modell feinabzustimmen und unter eigenem Markennamen zu veröffentlichen. DeepSeek hat keine Marketingkosten, wird aber zum besten Werbeträger.