NVIDIA GTC 2026|Analyse der Strategie von NVIDIA's Milliarden-Dollar-Übernahme von Groq, wie LPX den Inferenzprozess verändert

ChainNewsAbmedia

Auf der NVIDIA GTC 2026 steht nicht nur Vera Rubin NVL72 im Mittelpunkt, sondern auch das neue Inferenzmodell, das in Kombination mit Groq 3 LPX entsteht. KI-Infrastruktur wandelt sich vom rein GPU-gesteuerten Rechenmodell hin zu einer heterogenen Architektur mit spezialisierter Arbeitsteilung.

Groq 3 LPX wird als Beschleuniger für niedrige Latenz bei Inferenzaufgaben positioniert und ergänzt die Rubin GPU. In traditionellen Architekturen müssen GPUs gleichzeitig lange Kontextinputs verarbeiten und Token für Token generieren. Mit wachsendem Modellumfang und längeren Kontexten entstehen dabei Effizienzengpässe.

NVIDIA zerlegt daher den Inferenzprozess, sodass die Rubin GPU sich auf hochdurchsatzfähige Vorverarbeitung und Attention-Berechnungen konzentriert, während LPX die für Echtzeitreaktionen kritischen Decodierungsphasen übernimmt, insbesondere Feedforward-Netzwerke und MoE-Experten. Letztes Jahr erwarb NVIDIA Groq für etwa 20 Milliarden US-Dollar in bar, was genau diesen Ansatz ermöglicht. Groq entwickelt eine speziell für KI-Inferenz konzipierte LPU (Language Processing Unit), die extrem niedrige Latenz, stabile Reaktionszeiten und hohe Energieeffizienz bietet – ideal für Echtzeitdialoge, Sprachassistenten und ähnliche Szenarien.

(NVIDIA’s größter Zukauf: 640 Milliarden US-Dollar für Groq-Technologie und den Schöpfer der Google TPU)

GPU kooperiert mit LPU, um Inferenz aufzuteilen

Dieses Design, bekannt als „Disaggregated Inference“, trennt die Inferenzprozesse von einem einzelnen Prozessor und ermöglicht die Zusammenarbeit zwischen GPU und LPU.

Im Betrieb erstellt das Modell zunächst auf der GPU den Kontext und den KV-Cache. Bei jeder Token-Generierung verarbeitet die GPU die Attention, während die Zwischenergebnisse an die LPX weitergeleitet werden, um das Feedforward-Netzwerk (FFN) zu berechnen. Abschließend werden die Ergebnisse wieder an die GPU zurückgegeben, um die Ausgabe zu kombinieren. Dieses Arbeitsteilungsmodell lässt die jeweiligen Recheneinheiten ihre Stärken ausspielen und steigert die Gesamteffizienz erheblich.

NVIDIA übernimmt Groq und integriert dessen LPU in LPX

Der Kern von LPX ist seine LPU-Architektur. Anders als GPUs, die auf dynamisches Scheduling und externe Hochbandbreiten-Speicher angewiesen sind, setzt LPU auf ein vorhersehbares Design. Durch den Einsatz eines Compilers, der Rechen- und Datenflüsse direkt steuert, werden Latenzschwankungen reduziert. Das SRAM-zentrierte Design hält kritische Daten möglichst im Chip, minimiert Speicherzugriffsunsicherheiten und sorgt für stabilere Token-Generierungszeiten. Diese Eigenschaft ist für Echtzeit-Interaktions-AI entscheidend, da Latenz direkt die Nutzererfahrung beeinflusst.

LPX-Server-Spezifikationen veröffentlicht: 256 LPUs

Ein LPX-Server besteht aus 256 LPU-Einheiten, die eine extrem hohe On-Chip-Speicherbandbreite und schnelle Kommunikation zwischen den Chips bieten. Er ist speziell für niedrige Latenz bei Inferenz ausgelegt. Im Vergleich zu Rubin GPU mit hohen FLOPS und großem Speicher ist LPX eher eine speziell für die „letzte Meile“ optimierte Engine, die Modelloutputs in sofort nutzbare Ergebnisse umwandelt.

Dieser Artikel erschien zuerst bei Chain News ABMedia: NVIDIA GTC 2026|Analyse der Milliarden-Übernahme von Groq durch NVIDIA und wie LPX den Inferenzprozess verändert.

Original anzeigen
Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.
Kommentieren
0/400
Keine Kommentare