Rakuten anuncia com grande pompa o "maior modelo de IA do Japão", mas a comunidade descobriu que o núcleo é DeepSeek V3

動區BlockTempo

Rakuten Group anunciou hoje o Rakuten AI 3.0, promovendo-o como “o maior modelo de IA de alto desempenho do Japão”. Afirmam que é um modelo MoE de 671B parâmetros, desenvolvido internamente e de código aberto gratuito, mas em poucas horas a comunidade descobriu o config.json no HuggingFace, onde está escrito model_type: deepseek_v3, na verdade uma versão ajustada em japonês do DeepSeek V3.
(Contexto: Bloomberg: DeepSeek surge com força, representando uma “ameaça enorme” à hegemonia americana em IA)
(Informação adicional: DeepSeek V4 anuncia abandono da Nvidia! Onde está a batalha da China pela “independência de poder computacional” em IA?)

Fundador e CEO da Rakuten, Hiroshi Mikitani, anunciou com grande destaque o Rakuten AI 3.0, posicionando-o como “o maior modelo de IA de alto desempenho do Japão”. Totalmente de código aberto sob licença Apache 2.0, afirma superar GPT-4o em várias provas de benchmark em japonês. Menos de algumas horas após o anúncio, a comunidade revelou um detalhe constrangedor.

Na página do modelo no HuggingFace, o config.json claramente mostra: model_type: deepseek_v3, architectures: DeepseekV3ForCausalLM.

Com 671B de parâmetros, inferência ativada com 37B, janela de contexto de 128K tokens, todos os números coincidem exatamente com o DeepSeek V3. Ou seja, o Rakuten AI 3.0 não é um modelo desenvolvido por eles, mas uma versão baseada no DeepSeek V3, ajustada em japonês.

Financiado pelo governo japonês, mas com base em modelo chinês

Mais interessante ainda é a origem oficial desse modelo. O Rakuten AI 3.0 é resultado do projeto GENIAC (Generative AI Accelerator Challenge), promovido pelo Ministério da Economia, Comércio e Indústria do Japão (METI) e pela NEDO, com apoio parcial de recursos de treinamento do governo japonês.

Na divulgação, a Rakuten apenas menciona “aproveitamento máximo dos melhores resultados da comunidade open source”, sem citar o DeepSeek.

Quão forte é o DeepSeek V3?

Lançado em dezembro de 2024, o DeepSeek V3 é o modelo de ponta open source da empresa chinesa DeepSeek. Com custo de treinamento de cerca de 5 a 6 milhões de dólares, é mais barato que o GPT-4 em mais de 20 vezes, e tem se destacado em várias provas de benchmark, igualando ou superando modelos fechados de ponta, causando impacto na comunidade de IA.

Por usar a licença open source Apache 2.0, qualquer pessoa pode usar comercialmente, ajustar ou redistribuir legalmente. Mas “legalidade” e “transparência” são coisas diferentes.

Configuração do Rakuten AI 3.0:

  • Arquitetura: MoE (Especialistas Híbridos), baseado no DeepSeek V3
  • Parâmetros totais: 671B, inferência: 37B
  • Janela de contexto: 128K tokens
  • Otimização para japonês
  • Licença: Apache 2.0 (uso comercial ilimitado)

A influência do DeepSeek já atingiu um nível interessante: gigantes do comércio eletrônico japonês como a Rakuten, com recursos subsidiados pelo governo, ajustando modelos chineses open source e colocando sua marca. O DeepSeek, sem gastar em marketing, virou uma das melhores propagandas.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário