El CEO de NVIDIA, Jensen Huang, en GTC 2026, hizo un llamado a una demanda de al menos 1 billón de dólares para 2027, y utilizó conceptos como la fábrica de tokens, la rueda de impulso CUDA, el sistema monstruoso Vera Rubin y el sistema operativo de agentes OpenClaw para trazar el plan de la próxima década de NVIDIA.
(Resumen previo: en su charla en GTC «DLSS 5, NemoClaw», Huang encendió la fiebre del AI: FET subió un 20%, NEAR y Worldcoin alcanzaron máximos recientes en el mes)
(Información adicional: el Ministerio de Seguridad Nacional de China advierte sobre «cría de langostas»: OpenClaw tiene cuatro minas terrestres de seguridad, tu dispositivo podría ser secuestrado)
Índice del artículo
Alternar
El 16 de marzo de 2026, en la apertura de la conferencia GTC de NVIDIA, Huang subió al escenario y dijo una frase que dejó en silencio a toda la audiencia: «El año pasado, hablé de una demanda con alta confianza de 500 mil millones de dólares. Ahora, en este preciso momento, la cifra que veo es de al menos 1 billón de dólares. Y estoy seguro de que la demanda real será aún mayor.»
Tras estas palabras, las acciones de NVIDIA subieron más del 4.3% ese día. Pero Huang no solo estaba reportando cifras; dedicó toda su charla a explicar de dónde proviene ese billón de dólares y por qué aún no es suficiente.
El punto de partida de toda la charla fue la especialidad de NVIDIA: CUDA. Este año se cumplen 20 años de su creación, y Huang lo describió como la «lógica estratégica del 100% de NVIDIA».
En términos sencillos: CUDA es la tecnología que permite a los desarrolladores programar GPUs. Cuando apareció hace veinte años, nadie estaba seguro de su éxito, pero NVIDIA apostó la mayor parte de sus recursos para sostenerlo. Ahora, mirando hacia atrás, esa decisión ha creado una barrera de protección casi imposible de copiar: miles de millones de GPUs que ejecutan CUDA en todo el mundo, decenas de miles de proyectos de código abierto que dependen de ella, y todos los proveedores de servicios en la nube que la han integrado.
Huang llama a esto un «efecto de rueda de impulso»: gran volumen de dispositivos → atrae a los desarrolladores → crean nuevos algoritmos → avances en algoritmos generan nuevos mercados → expansión de estos mercados aumenta el volumen de dispositivos → la rueda sigue girando. Además, NVIDIA continúa actualizando y optimizando el software; incluso las GPUs Ampere, hace seis años, cuyo precio en la nube no ha bajado, en realidad ha subido, porque las aplicaciones que corren sobre ellas son cada vez más numerosas y valiosas.
Este es el concepto central de la charla de Huang y la clave para entender esa demanda de 1 billón de dólares.
En pocas palabras: los centros de datos del pasado eran «depósitos», donde se almacenaban archivos y datos; en el futuro, serán «fábricas», que producen la unidad básica de la IA: tokens (que se pueden entender como las unidades mínimas de pensamiento y habla de la IA).
Huang explica que cada centro de datos está limitado por la electricidad: una planta de 1 gigavatio (GW) nunca se convertirá en 2 GW, eso es una ley física. Por lo tanto, la cuestión central de la competencia será: con la misma electricidad, ¿quién puede producir más tokens? Quien tenga la mayor cantidad de tokens por vatio, tendrá los costos de producción más bajos y, por ende, ganará.
Los tokens también tendrán una estructura de precios en capas, similar a las clases en avión:
En otras palabras, con la misma GPU, Huang aconseja distribuir su potencia en diferentes niveles de servicio: cuanto mayor sea el rendimiento y más rápida la velocidad, mayor será la ganancia. Su estimación es que, en comparación con la generación anterior Hopper, el nuevo sistema Grace Blackwell puede generar cinco veces más ingresos con la misma potencia.
Huang dice que, al hablar de la generación anterior, Hopper, puede mostrar una pieza de chip; pero cuando se trata de Vera Rubin, la gente piensa en todo el sistema.
Los números hablan por sí mismos: en un centro de datos de 1 GW, la tasa de generación de tokens pasó de 22 millones por segundo a 700 millones en solo dos años, un aumento de 350 veces. En comparación, la ley de Moore en ese mismo período solo ofrece un aumento de aproximadamente 1.5 veces.
¿Cómo es ese sistema monstruoso? Vera Rubin es un sistema completamente enfriado por líquido, que elimina por completo los cables tradicionales. Lo que antes requería dos días para instalar, ahora se hace en dos horas. Huang comenta que Microsoft Azure ya ha confirmado que la primera unidad Vera Rubin está en línea.
La integración de la tecnología de Groq no busca reemplazar las GPUs propias de NVIDIA, sino realizar «inferencia asimétrica separada»: en palabras simples, dividir la tarea de inferencia en dos etapas, usando la herramienta más adecuada para cada una.
La característica principal del chip de Groq es su gran cantidad de SRAM de alta velocidad (500MB), muy rápido pero con poca memoria, ideal para la etapa final de generación de tokens. El chip Vera Rubin tiene mucha memoria (288GB), apto para cálculos masivos y almacenamiento en caché en las etapas iniciales.
NVIDIA combina ambos con su software Dynamo: la «pre-carga» y la decodificación del mecanismo de atención se hacen en Vera Rubin, mientras que la generación de tokens, que requiere baja latencia, se realiza en Groq. Ambos están conectados mediante Ethernet, reduciendo la latencia en aproximadamente la mitad.
Huang también recomienda una configuración: si el trabajo principal es alto rendimiento, usar 100% Vera Rubin; si hay muchas tareas de generación de código de alto valor, dedicar alrededor del 25% de la capacidad del centro de datos a Groq. La serie LP30 de Groq ya está en producción con Samsung, y se espera que comience a enviarse en el tercer trimestre.
Huang dice que hace diez años, GeForce llevó la IA a todo el mundo; ahora, la IA está a punto de transformar la computación gráfica. Llama a esta nueva tecnología «Renderizado neuronal (Neural Rendering)», o DLSS 5.
La idea central es combinar la gráfica 3D determinista (estructura clara, control preciso) con la estética probabilística de la IA generativa. La información estructurada garantiza control, mientras que la IA se encarga de hacer que la imagen sea tan hermosa que parezca irreal. Huang afirma que esta fusión de «datos estructurados + IA generativa» aparecerá repetidamente en muchas industrias.
Peter Steinberger desarrolló OpenClaw, que Huang califica como «el proyecto de código abierto más popular de la historia, que en semanas superó los logros de Linux en treinta años».
¿Y qué es OpenClaw? En palabras simples: permite que los agentes de IA gestionen recursos, llamen a herramientas, lean y escriban archivos, programen tareas y dividan grandes problemas en tareas más pequeñas para distribuir entre sub-agentes, similar a cómo un sistema operativo permite que los programas humanos funcionen en una computadora. OpenClaw hace que los agentes de IA funcionen en tu entorno empresarial de TI.
Huang dice: «Cada SaaS se convertirá en una AaaS». Es decir, las empresas de software ya no solo venden herramientas, sino servicios de agentes inteligentes que hacen tareas por ti.
Pero la versión empresarial tiene un problema: los agentes pueden acceder a datos sensibles y ejecutar código, por lo que deben estar estrictamente controlados. NVIDIA ha lanzado NeMo Claw, un diseño de referencia empresarial que incluye un motor de políticas y un enrutador de privacidad, para garantizar que los agentes funcionen de forma segura en las empresas.
Huang predice con detalle: «En el futuro, cada ingeniero en una empresa necesitará un presupuesto anual de tokens. Su salario puede ser de varias decenas de miles de dólares, y además, se les dará un cupo de tokens equivalente a la mitad de su salario, para multiplicar por diez su productividad. La cantidad de tokens asignados al ingresar será ya un tema de reclutamiento en Silicon Valley.»
Esto no es una metáfora; él cree que será el nuevo estándar para medir la competitividad empresarial: cuánto poder de cálculo se le da a un ingeniero, cuánto valor puede crear. Cada empresa será tanto usuaria como productora de tokens.
Huang afirma que las entidades digitales inteligentes se mueven en el mundo digital, mientras que la IA física es la encarnación de la inteligencia en el mundo real, es decir, los robots. En GTC 2026, se presentaron 110 robots, cubriendo casi todas las empresas de desarrollo robótico en el mundo.
En el ámbito de la conducción autónoma, Huang anunció que BYD, Hyundai, Nissan y Geely se unieron a la plataforma RoboTaxi Ready de NVIDIA, con una producción anual combinada de 18 millones de vehículos, junto con Mercedes-Benz, Toyota y General Motors, formando un equipo formidable. También anunció una colaboración con Uber para desplegar y conectar vehículos RoboTaxi en varias ciudades.
En la clausura, el robot Olaf de Disney subió al escenario, usando una placa Jetson como cerebro, aprendiendo a caminar en el mundo virtual en Omniverse y adaptándose a la realidad con el solucionador físico Newton. Huang y Olaf intercambiaron algunas palabras, y Huang terminó diciendo entre risas: «Pensé que sería más alto. Nunca he visto un muñeco de nieve tan bajo.»
Al final de la charla, Huang «spoileó» la próxima arquitectura de computación, llamada Feynman, que permitirá por primera vez que la interconexión de cobre y la óptica de empaquetado conjunto (CPO) soporten expansión horizontal simultáneamente. La visión más lejana es «Vera Rubin Space-1»: un centro de datos en el espacio, que extenderá por completo la potencia de cálculo de IA más allá de la Tierra.
Huang resumió toda la presentación en cuatro puntos: la llegada del punto de inflexión en la inferencia, el inicio de la era de las fábricas de IA, la revolución de los agentes con OpenClaw, y la implementación a escala de la IA física. Un billón de dólares es solo el comienzo.