NVIDIA presenta Nemotron 3 Nano Omni de código abierto multimodal

Según el anuncio del 28 de abril en el blog oficial de NVIDIA (autor Kari Briski), NVIDIA presentó Nemotron 3 Nano Omni — un modelo multimodal de código abierto que integra capacidades de visión, voz y lenguaje en un solo modelo, con el objetivo de proporcionar a los sistemas de agentes de IA una capa de “percepción” con menor latencia y menor costo.

Especificaciones clave: 30B-A3B MoE, contexto de 256K, 9 veces más rendimiento, y ocupar el 1.º lugar en 6 rankings

Arquitectura clave:

30B-A3B mixture-of-experts híbrido (30B de parámetros totales, 3B activados)

Integración de codificación Conv3D y EVS

Longitud de contexto 256K

Entrada: texto, imágenes, audio, videos, documentos, tablas, pantalla de GUI

Salida: texto

Señales de rendimiento: 9 veces más rendimiento con la misma capacidad de interacción que otros modelos omni de código abierto; en tres grandes categorías (inteligencia de documentos, comprensión de videos y comprensión de audio), obtuvo el 1.º lugar en un total de 6 rankings (NVIDIA no incluyó puntuaciones específicas en el anuncio; guía a los lectores para que consulten los detalles en el blog de desarrolladores).

NVIDIA posiciona Nemotron 3 Nano Omni como “los ojos y los oídos” dentro de los sistemas de agentes; puede repartirse el trabajo con otros modelos de la misma familia como Nemotron 3 Super (ejecución de alta frecuencia) y Nemotron 3 Ultra (planificación compleja), y también puede interoperar con modelos de nube de terceros. Tres escenarios típicos de aplicaciones de agentes:

Agente de uso de computadora (Computer Use Agent): razonamiento visual con resolución nativa de 1920×1080

Inteligencia de documentos: razonamiento de entradas multimodales que cruzan figuras, tablas, capturas y medios mixtos

Comprensión de audio/video: integrar voz, imágenes y grabaciones en una sola secuencia de inferencia

Equipo de adopción: Foxconn, Palantir se incorporan; el CEO de H Company emite una declaración con nombre

En el anuncio de NVIDIA se distingue explícitamente entre “adopción en producción” y “en evaluación”:

Adoptados en producción: Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn (鴻海), H Company, Palantir, Pyler

En evaluación: Amdocs, Dell, Docusign, Infosys, IQVIA, Lila, Oracle, Quantiphi, TCS, Zefr, etc.

El CEO de H Company, Gautier Cloix, emitió una declaración con nombre en el anuncio: “To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.” Traducción: “Para construir agentes útiles, no puedes esperar segundos a que un modelo interprete una pantalla. Al construir sobre Nemotron 3 Nano Omni, nuestros agentes pueden interpretar rápidamente grabaciones de pantalla en Full HD — algo que antes no era práctico.”

Estrategia de código abierto y despliegue: weights / datasets / métodos de entrenamiento, todo público

Al momento de su lanzamiento, NVIDIA dio a conocer:

Pesos del modelo

Conjunto de datos de entrenamiento

Tecnologías/técnicas y metodología de entrenamiento

El canal de despliegue abarca tres capas:

Estaciones de trabajo locales: NVIDIA DGX Spark, DGX Station

Microservicios NIM: build.nvidia.com

Plataformas de terceros: Hugging Face, OpenRouter, y mediante más de 25 NVIDIA Cloud Partners, plataformas de inferencia y proveedores de servicios en la nube

Las herramientas de personalización se usan con NVIDIA NeMo. La familia Nemotron 3 (Nano/Super/Ultra) acumuló descargas de más de 50 millones de veces en Hugging Face durante el año pasado; en esta ocasión, Omni extiende las capacidades de esa familia al ámbito multimodal y de agentes.

Este artículo sobre el lanzamiento de Nemotron 3 Nano Omni de NVIDIA como código abierto y multimodal apareció por primera vez en 鏈新聞 ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.

Artículos relacionados

La red principal de KITE AI se lanza en Avalanche el 29 de abril como una cadena de bloques de agentes de IA creada para este propósito

Según Altcoin Buzz, la red principal (mainnet) de KITE AI se lanzó en Avalanche el 29 de abril, presentando una cadena de bloques dedicada de Capa 1 diseñada para agentes de IA autónomos. La plataforma integra capacidades de identidad y pagos nativos para permitir que los agentes de IA operen, realicen transacciones y escalen sin fricciones. Avalanch

GateNewshace2h

B.AI y deBridge se asocian para construir infraestructura entre cadenas para agentes de IA

Según ChainCatcher, B.AI y deBridge anunciaron una asociación estratégica el 29 de abril para desarrollar una infraestructura entre cadenas impulsada por intención. La colaboración tiene como objetivo proporcionar una ejecución entre cadenas fluida para una economía de Agentes de IA escalable. El modelo 0-TVL de deBridge y la tecnología entre cadenas sin gas respaldarán el desarrollo de sistemas de negociación autónomos eficientes y seguros de la asociación, acelerando la ejecución entre cadenas en la era de los Agentes de IA.

GateNewshace4h

Parallel de Parag Agrawal recauda $100M Serie B para infraestructura de búsqueda para agentes de IA

Según Beating, Parallel Web Systems, fundada por el ex CEO de Twitter Parag Agrawal, completó una ronda de $100 millones de la Serie B liderada por Sequoia Capital, valorando a la empresa en $2 mil millones. Kleiner Perkins, Index Ventures y Khosla Ventures también participaron. La financiación llega seis meses después de que la empresa recaudara millones en la Serie A con una valoración de millones, casi triplicando su valoración.

GateNewshace4h

0G Labs lanza 0G Private Computer para inferencia de IA que preserva la privacidad con verificación TEE

Mensaje de Gate News, 29 de abril — 0G Labs ha lanzado oficialmente 0G Private Computer, un servicio de inferencia que preserva la privacidad para agentes y desarrolladores de IA, impulsado por la tecnología (TEE) de Entorno de Ejecución Confiable (Trusted Execution Environment). Los usuarios pueden acceder al servicio a través de pc.0g.ai. La plataforma utiliza CPUs Intel TDX y

GateNewshace5h

La Fundación Avalanche Respaldа W3 mientras 200.000 flujos de trabajo entran en funcionamiento, acelerando el cambio hacia las finanzas de IA

W3 ha lanzado una plataforma de control en la red Avalanche diseñada para gestionar finanzas impulsadas por agentes. Aspectos clave W3.io lanzó una plataforma de control de IA en Avalanche, ya está procesando 200.000 flujos de trabajo empresariales diarios. W3 y Avalanche tienden un puente entre una brecha de rendición de cuentas para 70+ blockchains por

Coinpediahace6h

Informe de investigación de a16z Crypto: la tasa de explotación de vulnerabilidades DeFi de los agentes de IA alcanza el 70%

Según el informe de investigación publicado por a16z Crypto el 29 de abril, bajo condiciones en las que los agentes de IA están equipados con conocimientos del dominio de manera estructurada, la tasa de éxito al reproducir una vulnerabilidad de manipulación del precio de Ethereum alcanza el 70%; en un entorno de sandbox sin ningún conocimiento del dominio, la tasa de éxito es solo del 10%. El informe también registra casos en los que los agentes de IA eluden independientemente las restricciones del sandbox para acceder a información futura de transacciones, así como patrones de fallo sistemático cuando los agentes elaboran planes de ataque rentables de varios pasos.

MarketWhisperhace8h
Comentar
0/400
Sin comentarios