黄仁勋1.5 horas de anúncio contínuo de 8 novos produtos, Nvidia aposta forte em IA de raciocínio e IA física

Autor | ZeR0 Junda, Zhi Dongxi

Editor | Mo Ying

Notícia de Chips de Las Vegas, 5 de janeiro, acaba de acontecer a primeira palestra temática de 2026 do fundador e CEO da Nvidia, Huang Renxun, na CES 2026. Huang Renxun, como sempre, vestindo uma jaqueta de couro, anunciou oito lançamentos importantes em 1,5 horas, cobrindo desde chips, racks até design de rede, apresentando uma introdução aprofundada de toda a nova plataforma de geração.

No campo do cálculo acelerado e infraestrutura de IA, a Nvidia lançou o supercomputador NVIDIA Vera Rubin POD AI, o pacote de componentes ópticos Ethernet Spectrum-X, a plataforma de armazenamento de memória de contexto de inferência NVIDIA, e o NVIDIA DGX SuperPOD baseado no DGX Vera Rubin NVL72.

O NVIDIA Vera Rubin POD utiliza seis chips desenvolvidos pela Nvidia, abrangendo CPU, GPU, Scale-up, Scale-out, armazenamento e capacidade de processamento, todos projetados de forma colaborativa para atender às demandas de modelos avançados e reduzir custos computacionais.

Dentre eles, a Vera CPU usa uma arquitetura personalizada Olympus, a Rubin GPU introduz o motor Transformer, alcançando desempenho de inferência NBFP4 de até 50PFLOPS, com largura de banda NVLink de até 3,6TB/s por GPU, suportando o terceira geração de computação confidencial universal (primeiro TEE de rack), realizando um ambiente de execução confiável completo entre CPU e GPU.

Esses chips já estão em produção, a Nvidia validou todo o sistema NVIDIA Vera Rubin NVL72, e seus parceiros já começaram a rodar seus modelos e algoritmos de IA integrados internamente, preparando todo o ecossistema para a implantação do Vera Rubin.

Em outros anúncios, o Spectrum-X Ethernet com componentes ópticos de encapsulamento conjunto otimizou significativamente a eficiência de energia e o tempo de operação normal; a plataforma de armazenamento de memória de contexto de inferência redefiniu a pilha de armazenamento para reduzir cálculos redundantes e melhorar a eficiência de inferência; o NVIDIA DGX SuperPOD baseado no Vera Rubin NVL72 reduziu o custo de tokens de modelos MoE grandes para 1/10.

No que diz respeito a modelos abertos, a Nvidia anunciou a expansão da família de modelos de código aberto, lançando novos modelos, conjuntos de dados e bibliotecas, incluindo a série de modelos de código aberto NVIDIA Nemotron com novos modelos Agentic RAG, modelos de segurança, modelos de voz, além de novos modelos abertos para todos os tipos de robôs. No entanto, Huang Renxun não detalhou esses anúncios na palestra.

Na área de IA física, a era do ChatGPT físico já chegou, a tecnologia de pilha completa da Nvidia permite que o ecossistema global transforme indústrias por meio de robótica alimentada por IA; a vasta biblioteca de ferramentas de IA da Nvidia, incluindo a nova combinação de modelos de código aberto Alpamayo, permite que a indústria de transporte global implemente rapidamente condução segura L4; a plataforma de condução autônoma NVIDIA DRIVE já está em produção, instalada em todos os novos Mercedes-Benz CLA, para condução AI de nível L2++.

01. Nova supercomputador de IA: 6 chips autônomos, capacidade de 3,6EFLOPS por rack

Huang Renxun acredita que a cada 10 a 15 anos, a indústria de computadores passa por uma reformulação completa, mas desta vez, duas mudanças de plataforma ocorrem simultaneamente, de CPU para GPU, de “software de programação” para “software de treinamento”, acelerando o cálculo e a IA, reformulando toda a pilha de computação. A indústria de computação avaliada em US$ 10 trilhões na última década está passando por uma modernização.

Ao mesmo tempo, a demanda por poder de processamento disparou. O tamanho dos modelos cresce 10 vezes ao ano, o número de tokens usados para pensar aumenta 5 vezes ao ano, e o preço de cada token cai 10 vezes ao ano.

Para atender a essa demanda, a Nvidia decidiu lançar novos hardwares de computação anualmente. Huang Renxun revelou que o Vera Rubin já entrou em produção total.

O novo supercomputador de IA da Nvidia, NVIDIA Vera Rubin POD, usa 6 chips autônomos: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 (CX9) SmartNIC, BlueField-4 DPU, Spectrum-X 102.4T CPO.

Vera CPU: projetada para movimentação de dados e processamento de agentes, possui 88 núcleos Olympus personalizados da Nvidia, 176 threads de multithreading espacial Nvidia, NVLink-C2C de 1,8TB/s suportando memória unificada CPU:GPU, memória do sistema de 1,5TB (3 vezes a do Grace CPU), largura de banda de memória LPDDR5X do SOCAMM de 1,2TB/s, suportando computação confidencial de rack, com desempenho de processamento de dados dobrado.

Rubin GPU: introduz o motor Transformer, com desempenho de inferência NVFP4 de até 50PFLOPS, 5 vezes maior que a GPU Blackwell, compatível retroativamente, mantendo a precisão de inferência enquanto melhora o desempenho em BF16/FP4; desempenho de treinamento NVFP4 de até 35PFLOPS, 3,5 vezes maior que a Blackwell.

Rubin também é a primeira plataforma a suportar HBM4, com largura de banda de 22TB/s, 2,8 vezes maior que a geração anterior, capaz de fornecer o desempenho necessário para modelos MoE rigorosos e cargas de trabalho de IA.

NVLink 6 Switch: taxa de lane única aumentada para 400Gbps, usando tecnologia SerDes para transmissão de sinais de alta velocidade; cada GPU pode alcançar 3,6TB/s de largura de banda de comunicação total, o dobro da geração anterior, com largura de banda total de 28,8TB/s, desempenho de cálculo in-network de 14,4TFLOPS em precisão FP8, suportando resfriamento líquido 100%.

NVIDIA ConnectX-9 SuperNIC: oferece 1,6Tb/s de largura de banda por GPU, otimizado para IA em larga escala, totalmente definido por software, programável, com caminho de dados acelerado.

NVIDIA BlueField-4: DPU de 800Gbps, usado para SmartNICs e processadores de armazenamento, equipado com CPU Grace de 64 núcleos, combinando com o ConnectX-9 SuperNIC, para descarregar tarefas de rede e armazenamento, além de melhorar a segurança de rede, com desempenho de computação 6 vezes maior que a geração anterior, largura de banda de memória 3 vezes maior, e velocidade de acesso a dados de GPU ao armazenamento 2 vezes maior.

NVIDIA Vera Rubin NVL72: integra todos esses componentes em um sistema de processamento de rack único, com 2 trilhões de transistores, desempenho de inferência NVFP4 de 3,6EFLOPS, desempenho de treinamento NVFP4 de 2,5EFLOPS.

A memória LPDDR5X do sistema tem capacidade de 54TB, 2,5 vezes maior que a geração anterior; a memória total HBM4 é de 20,7TB, 1,5 vezes maior; a largura de banda HBM4 é de 1,6PB/s, 2,8 vezes maior que a anterior; a largura de banda de expansão vertical total atinge 260TB/s, superando a escala de banda total da internet global.

O sistema é baseado no design de rack de terceira geração MGX, com bandeja de cálculo modular, sem host, sem cabos, sem ventilador, permitindo montagem e manutenção 18 vezes mais rápidas que o GB200. Antes, a montagem levava cerca de 2 horas, agora cerca de 5 minutos, e o sistema, que usava cerca de 80% de resfriamento líquido, agora usa 100%. Um sistema pesa cerca de 2 toneladas, podendo chegar a 2,5 toneladas com líquido de resfriamento.

O módulo NVLink Switch permite manutenção sem parada e tolerância a falhas, mesmo quando o módulo é removido ou parcialmente implantado, o rack pode continuar operando. O motor RAS de segunda geração realiza verificações de estado sem parada.

Essas características aumentam o tempo de operação e a taxa de transferência do sistema, reduzindo ainda mais os custos de treinamento e inferência, atendendo às exigências de alta confiabilidade e alta manutenção de centros de dados.

Mais de 80 parceiros do sistema MGX estão prontos para suportar a implantação do Rubin NVL72 em redes de grande escala.

02. Três novos produtos revolucionam a eficiência de inferência de IA: novo dispositivo CPO, nova camada de armazenamento de contexto, novo DGX SuperPOD

Ao mesmo tempo, a Nvidia lançou três produtos importantes: componentes ópticos Ethernet Spectrum-X, plataforma de armazenamento de memória de contexto de inferência, e o NVIDIA DGX SuperPOD baseado no DGX Vera Rubin NVL72.

1. NVIDIA Spectrum-X componentes ópticos Ethernet de encapsulamento conjunto

O Spectrum-X Ethernet de encapsulamento conjunto da Nvidia, baseado na arquitetura Spectrum-X, usa dois chips, com tecnologia SerDes de 200Gbps, cada ASIC oferece 102,4Tb/s de largura de banda.

A plataforma de troca inclui um sistema de 512 portas de alta densidade e um sistema compacto de 128 portas, cada uma com taxa de 800Gb/s.

O sistema de troca CPO (encapsulamento conjunto óptico) oferece aumento de 5 vezes na eficiência energética, 10 vezes na confiabilidade e 5 vezes no tempo de operação normal de aplicações.

Isso significa que mais tokens podem ser processados diariamente, reduzindo ainda mais o TCO (custo total de propriedade) do centro de dados.

2. Plataforma de armazenamento de memória de contexto de inferência NVIDIA

A plataforma de armazenamento de memória de contexto de inferência da Nvidia é uma infraestrutura de armazenamento nativa de IA de nível POD, usada para armazenar KV Cache, baseada em BlueField-4 e Spectrum-X Ethernet acelerado, integrada estreitamente com NVIDIA Dynamo e NVLink, realizando agendamento colaborativo de contexto entre memória, armazenamento e rede.

A plataforma trata o contexto como um tipo de dado de primeira classe, podendo alcançar 5 vezes o desempenho de inferência e 5 vezes maior eficiência energética.

Isso é crucial para melhorar aplicações de diálogo multi-turno, RAG, inferência multi-etapas Agentic, que dependem altamente da capacidade de armazenar, reutilizar e compartilhar contexto de forma eficiente em todo o sistema.

A IA está evoluindo de chatbots para IA Agentic (agentes inteligentes), que raciocinam, chamam ferramentas e mantêm estado a longo prazo, com janelas de contexto estendidas a milhões de tokens. Esses contextos são armazenados no KV Cache, e recalcular a cada passo desperdiça tempo de GPU e causa grande latência, por isso é necessário armazenamento.

Embora a memória de GPU seja rápida, é escassa; o armazenamento de rede tradicional é ineficiente para contextos de curto prazo. O gargalo da inferência de IA está mudando de cálculo para armazenamento de contexto. Assim, é preciso uma nova camada de memória otimizada para inferência, entre GPU e armazenamento.

Essa camada não é mais um patch posterior, mas deve ser projetada em colaboração com o armazenamento de rede, movendo dados de contexto com o menor custo possível.

Como uma nova hierarquia de armazenamento, a plataforma de armazenamento de memória de contexto de inferência da Nvidia não existe diretamente no sistema host, mas conecta-se aos dispositivos de computação via BlueField-4. Sua vantagem principal é permitir uma expansão mais eficiente do pool de armazenamento, evitando cálculos redundantes de KV Cache.

A Nvidia trabalha estreitamente com parceiros de armazenamento para integrar a plataforma de armazenamento de memória de contexto de inferência Nvidia na plataforma Rubin, permitindo que clientes a implantem como parte de uma infraestrutura de IA totalmente integrada.

3. Construção do NVIDIA DGX SuperPOD com base no Vera Rubin

No nível do sistema, o NVIDIA DGX SuperPOD é um roteiro para implantação de fábricas de IA em grande escala, usando 8 sistemas DGX Vera Rubin NVL72, com rede de expansão vertical NVLink 6, rede de expansão horizontal Spectrum-X Ethernet, e a plataforma de armazenamento de memória de contexto de inferência Nvidia integrada e validada.

O sistema é gerenciado pelo software NVIDIA Mission Control, alcançando máxima eficiência. Pode ser implantado como uma plataforma turnkey, usando menos GPUs para treinar e inferir.

Devido à colaboração extrema nos 6 chips, módulos, racks, pods, data centers e software, a plataforma Rubin reduziu drasticamente custos de treinamento e inferência. Para treinar modelos MoE de mesma escala, usa apenas 1/4 das GPUs em comparação com a geração Blackwell; para a mesma latência, o custo de tokens de grandes modelos MoE caiu para 1/10.

A Nvidia também lançou o NVIDIA DGX SuperPOD com sistema DGX Rubin NVL8.

Com a arquitetura Vera Rubin, a Nvidia está construindo, junto com parceiros e clientes, o maior, mais avançado e de menor custo sistema de IA do mundo, acelerando a adoção mainstream da IA.

A infraestrutura Rubin será disponibilizada na segunda metade deste ano via CSP e integradores de sistemas, com a Microsoft entre os primeiros a implantar.

03. Expansão do universo de modelos abertos: novos modelos, dados e contribuições para ecossistema open source

Na camada de software e modelos, a Nvidia continua investindo fortemente em open source.

Plataformas de desenvolvimento como OpenRouter mostram que, no último ano, o uso de modelos de IA cresceu 20 vezes, com cerca de 1/4 dos tokens vindo de modelos open source.

Em 2025, a Nvidia foi a maior contribuinte de modelos, dados e receitas open source na Hugging Face, lançando 650 modelos abertos e 250 conjuntos de dados abertos.

Os modelos open source da Nvidia lideram várias classificações. Desenvolvedores podem usar esses modelos, aprender com eles, treinar continuamente, expandir conjuntos de dados e construir sistemas de IA usando ferramentas open source e documentação técnica.

Inspirado pelo Perplexity, Huang Renxun observou que agentes devem ser multi-modelo, multi-cloud e híbridos, que é a arquitetura básica de sistemas de IA Agentic, adotada por quase todas as startups.

Com os modelos e ferramentas open source da Nvidia, desenvolvedores agora podem personalizar sistemas de IA, usando as capacidades de ponta desses modelos. Atualmente, a Nvidia integrou esse framework como um “blueprint” e o incorporou em plataformas SaaS, permitindo implantação rápida pelos usuários.

Nos exemplos ao vivo, esse sistema pode, com base na intenção do usuário, decidir automaticamente se a tarefa deve ser processada por um modelo privado local ou por um modelo de ponta na nuvem, além de chamar ferramentas externas (como APIs de email, interfaces de controle de robôs, serviços de calendário) e realizar fusão multimodal, processando texto, voz, imagens e sinais de sensores de robôs de forma unificada.

Essas capacidades complexas eram inimagináveis no passado, mas hoje se tornaram triviais. Plataformas empresariais como ServiceNow, Snowflake já oferecem funcionalidades semelhantes.

04. Modelo Alpha-Mayo open source “fazendo os carros autônomos “pensarem””

A Nvidia acredita que IA física e robótica acabarão se tornando o maior segmento de eletrônicos de consumo do mundo. Tudo que pode se mover, eventualmente, será totalmente autônomo, impulsionado por IA física.

A IA já passou pelas fases de percepção, geração e agentes inteligentes, e agora entra na era da IA física, onde a inteligência entende as leis físicas e age diretamente a partir da percepção do mundo físico.

Para alcançar esse objetivo, a IA física deve aprender o senso comum do mundo — persistência de objetos, gravidade, atrito. Essas habilidades dependerão de três computadores: o de treinamento (DGX) para criar modelos de IA, o de inferência (robôs/chips veiculares) para execução em tempo real, e o de simulação (Omniverse) para gerar dados sintéticos e validar lógica física.

O núcleo desses modelos é o Cosmos, um modelo fundamental do mundo, que alinha linguagem, imagens, 3D e leis físicas, suportando toda a cadeia de geração de dados de treinamento por simulação.

IA física aparecerá em três entidades: edifícios (fábricas, armazéns), robôs, veículos autônomos.

Huang Renxun acredita que a condução autônoma será o primeiro grande cenário de aplicação da IA física. Esses sistemas precisam entender o mundo real, tomar decisões e agir, com requisitos elevados de segurança, simulação e dados.

Para isso, a Nvidia lançou o Alpha-Mayo, um sistema completo composto por modelos open source, ferramentas de simulação e conjuntos de dados de IA física, para acelerar o desenvolvimento de IA física baseada em inferência segura.

Seu portfólio fornece aos fabricantes de veículos, fornecedores, startups e pesquisadores os blocos básicos para construir sistemas de condução autônoma nível L4.

Alpha-Mayo é o primeiro modelo do setor que realmente faz o carro autônomo “pensar”. Esse modelo já é open source. Ele decompõe o problema em etapas, raciocina sobre todas as possibilidades e escolhe a rota mais segura.

Esse modelo de raciocínio-ação permite que sistemas de condução autônoma resolvam cenários complexos de borda, como semáforos com falha em cruzamentos movimentados.

O Alpha-Mayo tem 10 bilhões de parâmetros, suficiente para tarefas de condução autônoma, mas leve o bastante para rodar em estações de trabalho criadas para pesquisadores de condução autônoma.

Ele pode receber entrada de texto, câmeras de visão periférica, histórico do veículo e navegação, e gerar trajetórias de condução e raciocínio, ajudando passageiros a entender por que o veículo tomou determinada ação.

Nos vídeos de demonstração ao vivo, sob o comando do Alpha-Mayo, o carro autônomo pode evitar pedestres, prever veículos à esquerda e mudar de faixa automaticamente, tudo sem intervenção.

Huang Renxun afirmou que o Mercedes-Benz CLA equipado com Alpha-Mayo já está em produção, e foi recentemente avaliado pela NCAP como o carro mais seguro do mundo. Cada código, chip e sistema passou por certificação de segurança. O sistema será lançado no mercado dos EUA, e uma versão com capacidades de condução ainda mais avançadas será lançada ainda neste ano, incluindo condução autônoma em rodovias sem mãos e condução autônoma ponta a ponta em ambientes urbanos.

A Nvidia também lançou alguns conjuntos de dados usados para treinar o Alpha-Mayo, além do framework de avaliação de modelos de inferência open source Alpha-Sim. Desenvolvedores podem ajustar o Alpha-Mayo com seus próprios dados, usar Cosmos para gerar dados sintéticos, e treinar e testar aplicações de condução autônoma com dados reais e sintéticos combinados. Além disso, a Nvidia anunciou que a plataforma NVIDIA DRIVE já está em produção.

A Nvidia revelou que empresas líderes globais de robótica, como Boston Dynamics, Franka Robotics, robôs cirúrgicos, LG Electronics, NEURA, XRLabs, e Zhi Yuan Robotics, estão construindo seus sistemas com NVIDIA Isaac e GR00T.

Huang Renxun também anunciou uma nova parceria com a Siemens. A Siemens está integrando CUDA-X, modelos de IA e Omniverse às suas ferramentas e plataformas de EDA, CAE e gêmeos digitais. A IA física será amplamente utilizada em todo o ciclo de projeto, simulação, fabricação e operação.

05. Conclusão: abraçar o open source com a esquerda, tornar o hardware insubstituível com a direita

À medida que o foco da infraestrutura de IA se desloca do treinamento para inferência em larga escala, a competição de plataformas evolui de poder de ponto único para engenharia de sistemas envolvendo chips, racks, redes e software, com o objetivo de entregar maior throughput de inferência ao menor TCO. A IA entra em uma nova fase de “operação em fábrica”.

A Nvidia valoriza o design de nível de sistema, com melhorias de desempenho e economia tanto no treinamento quanto na inferência, podendo atuar como uma alternativa plug-and-play ao Blackwell, com transição suave.

Na estratégia de plataforma, a Nvidia ainda considera o treinamento fundamental, pois só treinando modelos de ponta rapidamente, a plataforma de inferência pode realmente se beneficiar. Por isso, introduziu o NVFP4 no GPU Rubin, para melhorar ainda mais o desempenho e reduzir o TCO.

Ao mesmo tempo, essa gigante de computação de IA continua expandindo significativamente sua capacidade de comunicação de rede, tanto na vertical quanto na horizontal, e trata o contexto como uma limitação chave, promovendo o design colaborativo de armazenamento, rede e computação.

A Nvidia, ao mesmo tempo que amplia seu código aberto, também torna seu hardware, interconexões e design de sistema cada vez mais “insubstituíveis”. Essa estratégia de demanda crescente contínua, incentivo ao consumo de tokens, escalabilidade da inferência e infraestrutura de alto custo-benefício está construindo uma barreira de proteção cada vez mais forte para a Nvidia.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)