
NVIDIA hat am Donnerstag offiziell Nemotron 3 Super vorgestellt, ein Open-Weight-KI-Modell mit insgesamt 120 Milliarden Parametern, das speziell für autonome KI-Agenten und äußerst lange Kontextaufgaben tiefgehend optimiert wurde. NVIDIA kündigte einen strategischen Plan an, innerhalb von fünf Jahren 26 Milliarden US-Dollar in die Entwicklung eines Open-Source-KI-Modells zu investieren, um der rasanten globalen Expansion chinesischer Open-Source-Modelle direkt entgegenzuwirken.
Das Kernstück des Nemotron 3 Super-Designs ist die Lösung eines grundlegenden Problems in Multi-Agenten-Systemen: Jedes Tool-Call, jeder Reasoning-Schritt und jedes Kontextfragment erfordert das erneute Übertragen großer Datenmengen, was die Kosten in die Höhe treibt und das Modell vom erwarteten Verhalten abbringen kann. NVIDIA integriert drei Komponenten, die in einer einzigen Architektur äußerst selten gemeinsam auftreten:
Mamba-2 State Space Layers, die eine Alternative zum Attention-Mechanismus darstellen und bei der Verarbeitung langer Token-Flüsse schneller sowie speichereffizienter sind; Transformer-Attention-Layer, um eine präzise Informationswiederherstellung zu gewährleisten; und das völlig neue „Latent Mixture of Experts“ (Latent MoE), das vor dem Routing die Token komprimiert, sodass das Modell bei gleichem Rechenaufwand die vierfache Anzahl an Expertenmodulen aktivieren kann.
Das Modell wird in NVIDIAs proprietärem NVFP4-Format für native Pre-Training-Phasen trainiert, wobei es ab dem ersten Gradienten-Update in 4-Bit-Genauigkeit lernt, wodurch die Genauigkeitseinbußen durch vorheriges Hochpräzisionstraining vermieden werden. Der Kontextfenster ist auf 1 Million Token ausgelegt, was die vollständige Speicherung eines Code-Repositories oder etwa 750.000 englischer Wörter ermöglicht.
Hier einige zentrale Vergleichsdaten zur Inferenztaktung von Nemotron 3 Super:
Gegenüber OpenAI GPT-OSS 120B: 2,2-mal schneller
Gegenüber Alibaba Qwen3.5-122B: 7,5-mal schneller
Gegenüber der vorherigen Generation: Über fünffach höhere Gesamtdurchsatzrate
NVIDIA hat den Trainingsprozess vollständig offengelegt, inklusive der Modellgewichte auf Hugging Face, 10^14 ausgewählte Pre-Training-Proben (insgesamt über 25 Billionen Daten), 40 Millionen Fine-Tuning-Proben sowie Reinforcement-Learning-Methoden für 21 Umgebungen. Derzeit integrieren Perplexity, Palantir, Cadence und Siemens das Modell in ihre Workflows.
Die Veröffentlichung von Nemotron 3 Super ist nur ein Teil von NVIDIAs größerer Strategie. Bryan Catanzaro, Vizepräsident für Deep-Learning-Forschung bei NVIDIA, berichtete gegenüber Wired, dass das Unternehmen kürzlich ein Modell mit 550 Milliarden Parametern vortrainiert habe, und kündigte gleichzeitig die Investition von 26 Milliarden US-Dollar in Open-Source-KI innerhalb von fünf Jahren an.
Der strategische Hintergrund ist äußerst dringlich: Laut Studien von OpenRouter und Andreessen Horowitz hat der globale Einsatz chinesischer Open-Source-Modelle von 1,2 % Ende 2024 auf etwa 30 % Ende 2025 zugenommen; Alibaba Qwen hat Meta Llama überholt und ist das am weitesten verbreitete selbst gehostete Open-Source-Modell (Daten von Runpod). Berichte deuten darauf hin, dass die nächste Generation der DeepSeek-Modelle vollständig auf Huawei-Chips trainiert wird. Falls dies zutrifft, würde dies einen starken Anreiz für Entwickler weltweit schaffen, chinesische Hardware zu nutzen – genau die Situation, die NVIDIA durch eine offene Strategie abmildern möchte.
Was sind die Vorteile von Nemotron 3 Super im Vergleich zu Qwen und GPT-OSS?
In der Inferenztaktung ist Nemotron 3 Super 2,2-mal schneller als OpenAI GPT-OSS 120B und 7,5-mal schneller als Alibaba Qwen3.5-122B. Der Kernunterschied liegt im hybriden Mamba-Transformer-MoE-Architektur sowie im nativen Training in NVFP4-4-Bit-Genauigkeit, was es ermöglicht, bei gleichem Rechenaufwand mehr Expertenmodule zu aktivieren und den Durchsatz gegenüber Vorgängern um mehr als das Fünffache zu steigern.
Warum investiert NVIDIA jetzt 26 Milliarden US-Dollar in die Entwicklung eines Open-Source-KI-Modells?
Hauptgründe sind: Erstens, um die geschlossene Ökosphäre chinesischer Open-Source-Modelle und Chips zu verhindern, die NVIDIAs zentrale Position in der globalen KI-Infrastruktur schwächen könnten; zweitens, um durch auf NVIDIA-Hardware optimierte Open-Source-Modelle die Bindung an die eigenen Chips zu stärken. Angesichts des rasanten Anstiegs des Marktanteils chinesischer Open-Source-Modelle auf etwa 30 % ist die Dringlichkeit hoch.
Sind die Trainingsdaten und Modellgewichte von Nemotron 3 Super vollständig öffentlich zugänglich?
Ja, NVIDIA hat auf Hugging Face den vollständigen Trainingsprozess veröffentlicht, inklusive der Modellgewichte, 100 Billionen ausgewählter Pre-Training-Proben, 40 Millionen Fine-Tuning-Proben sowie Reinforcement-Learning-Methoden für 21 Umgebungen. Die Transparenz übertrifft die der meisten vergleichbaren kommerziellen Modelle.