NVIDIA e MIT lançam framework Lightning OPD, aumentando 4x a eficiência da distilação de modelos enquanto eliminam problemas de memória da GPU

Segundo as informações, investigadores da NVIDIA e do MIT lançaram o Lightning OPD (Offline On-Policy Distillation), um novo quadro de pós-treino para modelos de linguagem de grande dimensão que elimina a necessidade de manter um modelo “teacher” em funcionamento durante o treino. Ao pré-computar, offline, as log-probabilidades do modelo “teacher”, o quadro melhora a eficiência do treino em 4x, libertando todos os recursos da GPU para o treino do modelo “student”.

Em testes com 8 GPUs NVIDIA H100, o Lightning OPD conseguiu destilar com sucesso o Qwen3-30B-A3B-Base (um modelo MoE com 30 mil milhões de parâmetros) e atingiu 71,0 no benchmark AIME 2024, enquanto o OPD standard ficou sem memória no mesmo hardware. Para o modelo Qwen3-8B mais pequeno, o quadro exigiu apenas 30 horas de GPU para alcançar 69,9 pontos.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.

Related Articles

A Google lança a inteligência Gemini para Android, com estreia nos Galaxy S26 e no Pixel 10 ainda este verão

A 12 de maio, o Google apresentou o Gemini Intelligence, uma nova funcionalidade de IA para Android que automatiza tarefas de múltiplas etapas entre várias aplicações com a aprovação do utilizador. A funcionalidade será lançada inicialmente neste verão nos Samsung Galaxy S26 e nos dispositivos Google Pixel 10, antes de alargar a relógios, carros, óculos e portáteis mais tarde este ano. O Gemini Intelligence permite que os utilizadores concluam ações complexas sem alternar manualmente entre aplic

GateNews52m atrás

A Microsoft previu um retorno de $92B com o investimento na $13B OpenAI

A Microsoft projetou internamente um retorno de 92 mil milhões de dólares sobre o seu investimento acumulado de 13 mil milhões de dólares na OpenAI, segundo documentos de planeamento divulgados durante o depoimento do CEO Satya Nadella num tribunal federal em Oakland, na Califórnia, na segunda-feira, conforme avançado pela Bloomberg. O número surgia numa nota de janeiro de 2023 do presidente da Microsoft, Brad Smith, para o conselho de administração, que detalhava os retornos financeiros esperad

CryptoFrontier1h atrás

Entrevista exclusiva a Eric Trump na área do blockchain: aborda a IA, a energia e o Bitcoin nos EUA, e revela que Trump continua a chamá-lo “honey” em privado

YouTuber de blockchain de Taiwan, «邦尼區塊鏈», recentemente entrevistou Eric Trump, num diálogo que abordou a American Bitcoin, os planos de governação de criptomoedas da administração Trump, a competição entre a IA dos EUA e a capacidade energética, e os motivos pessoais de Eric Trump para se envolver na indústria dos activos digitais. Filho de Trump: os EUA têm de vencer em energia, IA e criptomoedas Eric Trump sublinhou várias vezes na entrevista que a narrativa central da administração Trump é «

ChainNewsAbmedia3h atrás

Deputados Republicanos Pedem uma Investigação às Investimentos Pessoais de Altman no valor de 3,75 mil milhões de dólares e Conflitos com a OpenAI

De acordo com a ChainCatcher, o presidente da Comissão de Supervisão da Câmara dos Representantes dos EUA, James Comer, exigiu recentemente que o CEO da OpenAI, Sam Altman, divulgasse informações sobre os seus investimentos pessoais e potenciais conflitos de interesse com a OpenAI. A investigação de Comer incide sobre o extenso portefólio de investimentos de Altman, que inclui um valor líquido aproximado de 3,5 mil milhões de dólares, com participações na Helion, na Stripe e na Reddit. Especific

GateNews5h atrás

A TT Chain integra o sistema de segurança AegisAI para proteção de RWA em 11 de maio

De acordo com o anúncio da TT Chain de 11 de maio, a rede blockchain de camada 2 integrou a infraestrutura de segurança orientada por IA da AegisAI no seu ecossistema de ativos do mundo real. A colaboração reforça a proteção para transações de ativos tokenizados e operações entre cadeias, através de capacidades avançadas de deteção de ameaças e auditoria de contratos inteligentes. Os agentes autónomos de IA da AegisAI detetam ataques de phishing, impedem tentativas de acesso não autorizado e ide

GateNews6h atrás

A startup de IA Wispr em negociações de financiamento a uma avaliação de $2B em 12 de maio

Segundo a PANews, a startup de IA Wispr está em negociações de captação de fundos a 12 de maio, com uma avaliação de 2 mil milhões de dólares.

GateNews6h atrás
Comentar
0/400
Nenhum comentário