Según el anuncio del 28 de abril en el blog oficial de NVIDIA (autor Kari Briski), NVIDIA presentó Nemotron 3 Nano Omni — un modelo multimodal de código abierto que integra capacidades de visión, voz y lenguaje en un solo modelo, con el objetivo de proporcionar a los sistemas de agentes de IA una capa de “percepción” con menor latencia y menor costo.
Especificaciones clave: 30B-A3B MoE, contexto de 256K, 9 veces más rendimiento, y ocupar el 1.º lugar en 6 rankings
Arquitectura clave:
30B-A3B mixture-of-experts híbrido (30B de parámetros totales, 3B activados)
Integración de codificación Conv3D y EVS
Longitud de contexto 256K
Entrada: texto, imágenes, audio, videos, documentos, tablas, pantalla de GUI
Salida: texto
Señales de rendimiento: 9 veces más rendimiento con la misma capacidad de interacción que otros modelos omni de código abierto; en tres grandes categorías (inteligencia de documentos, comprensión de videos y comprensión de audio), obtuvo el 1.º lugar en un total de 6 rankings (NVIDIA no incluyó puntuaciones específicas en el anuncio; guía a los lectores para que consulten los detalles en el blog de desarrolladores).
NVIDIA posiciona Nemotron 3 Nano Omni como “los ojos y los oídos” dentro de los sistemas de agentes; puede repartirse el trabajo con otros modelos de la misma familia como Nemotron 3 Super (ejecución de alta frecuencia) y Nemotron 3 Ultra (planificación compleja), y también puede interoperar con modelos de nube de terceros. Tres escenarios típicos de aplicaciones de agentes:
Agente de uso de computadora (Computer Use Agent): razonamiento visual con resolución nativa de 1920×1080
Inteligencia de documentos: razonamiento de entradas multimodales que cruzan figuras, tablas, capturas y medios mixtos
Comprensión de audio/video: integrar voz, imágenes y grabaciones en una sola secuencia de inferencia
Equipo de adopción: Foxconn, Palantir se incorporan; el CEO de H Company emite una declaración con nombre
En el anuncio de NVIDIA se distingue explícitamente entre “adopción en producción” y “en evaluación”:
Adoptados en producción: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler
En evaluación: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.
El CEO de H Company, Gautier Cloix, emitió una declaración con nombre en el anuncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Traducción: “Para construir agentes útiles, no puedes esperar segundos a que un modelo interprete una pantalla. Al construir sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla en Full HD — algo que antes no era práctico.”
Estrategia de código abierto y despliegue: weights / datasets / métodos de entrenamiento, todo público
Al momento de su lanzamiento, NVIDIA dio a conocer:
Pesos del modelo
Conjunto de datos de entrenamiento
Tecnologías/técnicas y metodología de entrenamiento
El canal de despliegue abarca tres capas:
Estaciones de trabajo locales: NVIDIA DGX Spark, DGX Station
Microservicios NIM: build.nvidia.com
Plataformas de terceros: Hugging Face, OpenRouter, y mediante más de 25 NVIDIA Cloud Partners, plataformas de inferencia y proveedores de servicios en la nube
Las herramientas de personalización se usan con NVIDIA NeMo. La familia Nemotron 3 (Nano/Super/Ultra) acumuló descargas de más de 50 millones de veces en Hugging Face durante el año pasado; en esta ocasión, Omni extiende las capacidades de esa familia al ámbito multimodal y de agentes.
Este artículo sobre el lanzamiento de Nemotron 3 Nano Omni de NVIDIA como código abierto y multimodal apareció por primera vez en 鏈新聞 ABMedia.
Artículos relacionados
La red principal de KITE AI se lanza en Avalanche el 29 de abril como una cadena de bloques de agentes de IA creada para este propósito
B.AI y deBridge se asocian para construir infraestructura entre cadenas para agentes de IA
Parallel de Parag Agrawal recauda $100M Serie B para infraestructura de búsqueda para agentes de IA
0G Labs lanza 0G Private Computer para inferencia de IA que preserva la privacidad con verificación TEE
La Fundación Avalanche Respaldа W3 mientras 200.000 flujos de trabajo entran en funcionamiento, acelerando el cambio hacia las finanzas de IA
Informe de investigación de a16z Crypto: la tasa de explotación de vulnerabilidades DeFi de los agentes de IA alcanza el 70%