Quebra de armazenamento de ações, Google AI com 900 mil milhões de dólares, é acusado de manipulação de experimentos

Autor: Deep潮 TechFlow

Uma publicação da Google alega ter “comprimido o uso de memória da IA para 1/6”, que na semana passada resultou em uma evaporação de mais de 90 mil milhões de dólares na capitalização de mercado de empresas de chips de armazenamento como a Micron e a SanDisk.

No entanto, apenas dois dias após a publicação do artigo, o contraponto do autor — o pós-doutorando Gao Jianyang do Instituto Federal de Tecnologia de Zurique — lançou uma carta aberta de dez mil palavras, acusando a equipa da Google de testar os concorrentes com um script Python em CPU de um núcleo, enquanto testaram a si próprios com GPU A100, e de terem sido informados sobre o problema antes da submissão, mas ainda assim se recusaram a corrigir. O número de leituras no Zhihu rapidamente ultrapassou 4 milhões, e a conta oficial de NLP da Stanford partilhou, causando um tremor simultâneo na academia e no mercado.

(Leitura de referência: Um artigo que abalou as ações de armazenamento)

A questão central desta controvérsia não é complexa: um artigo promovido em larga escala pela Google, que provocou uma venda em pânico no setor global de chips, distorceu sistematicamente um trabalho anterior já publicado e, através de experimentos injustos deliberadamente criados, moldou uma narrativa falsa de vantagem de desempenho?

O que fez o TurboQuant: comprimindo o “papel rascunho” da IA para um sexto do original

Os grandes modelos de linguagem, ao gerar respostas, precisam escrever e, ao mesmo tempo, voltar a olhar para o que já foi calculado. Esses resultados intermediários são temporariamente armazenados na memória, conhecidos na indústria como “KV Cache” (cache de chave-valor). Quanto mais longa a conversa, mais espesso se torna este “papel rascunho”, consumindo mais memória e aumentando os custos.

O algoritmo TurboQuant desenvolvido pela equipa de pesquisa da Google tem como principal venda a compressão desse papel rascunho para 1/6 do original, ao mesmo tempo que afirma zero perda de precisão e um aumento de velocidade de inferência de até 8 vezes. O artigo foi publicado pela primeira vez na plataforma de pré-impressão académica arXiv em abril de 2025, aceito na conferência ICLR 2026, a principal na área de IA, em janeiro de 2026, e relançado pelo blog oficial da Google a 24 de março.

Em termos técnicos, a ideia por trás do TurboQuant pode ser compreendida de forma simples: primeiro, aplicar uma transformação matemática para “limpar” os dados desordenados em um formato uniforme, e em seguida, usar uma tabela de compressão ótima previamente calculada para comprimir um a um, finalizando com um mecanismo de correção de erro de 1 bit para corrigir desvios de cálculo causados pela compressão. A implementação independente pela comunidade já verificou que seu efeito de compressão é basicamente verdadeiro, e a contribuição matemática do algoritmo é real.

A controvérsia não reside na capacidade do TurboQuant, mas no que a Google fez para provar que ele “supera amplamente os concorrentes”.

Carta aberta de Gao Jianyang: três acusações, todas acertando em cheio

Às 22h do dia 27 de março, Gao Jianyang publicou um longo texto no Zhihu, e ao mesmo tempo submeteu um comentário formal na plataforma de revisão oficial da ICLR, OpenReview. Gao Jianyang é o primeiro autor do algoritmo RaBitQ, que foi publicado na conferência SIGMOD, a mais importante na área de bancos de dados, em 2024, abordando uma classe semelhante de problemas — compressão eficiente de vetores de alta dimensão.

Suas acusações dividem-se em três, cada uma com registos de e-mail e cronologia que a apoiam.

Acusação 1: Usou o método central de outrem, sem mencioná-lo.

O núcleo técnico do TurboQuant e do RaBitQ possui um passo chave em comum: antes de comprimir os dados, realiza uma “rotação aleatória”. Esta operação transforma dados originalmente distribuídos de forma irregular em uma distribuição uniforme previsível, reduzindo significativamente a dificuldade de compressão. Esta é a parte mais central e próxima dos dois algoritmos.

Os autores do TurboQuant reconheceram isso em suas respostas às revisões, mas nunca esclareceram a relação entre este método e o RaBitQ no texto completo do artigo. O contexto mais relevante é que o segundo autor do TurboQuant, Majid Daliri, contatou proactivamente a equipa de Gao Jianyang em janeiro de 2025, pedindo ajuda para depurar sua versão em Python baseada no código-fonte do RaBitQ. O e-mail descreveu em detalhe os passos de replicação e as mensagens de erro — em outras palavras, a equipa do TurboQuant tinha um conhecimento detalhado dos aspectos técnicos do RaBitQ.

Um revisor anônimo da ICLR também apontou de forma independente que ambos usaram a mesma técnica, pedindo uma discussão adequada. No entanto, na versão final do artigo, a equipa do TurboQuant não apenas não acrescentou essa discussão, como também moveu a descrição (já incompleta) do RaBitQ do corpo do texto para o apêndice.

Acusação 2: Alega sem provas que a teoria do concorrente é “subótima”.

O artigo do TurboQuant rotulou diretamente o RaBitQ como “subóptimo”, argumentando que a análise matemática do RaBitQ era “relativamente superficial”. Mas Gao Jianyang apontou que o artigo expandido do RaBitQ já provou rigorosamente que seu erro de compressão atinge os limites ótimos matemáticos — esta conclusão foi publicada na conferência de ciência da computação teórica de topo.

Em maio de 2025, a equipa de Gao Jianyang explicou detalhadamente por várias rodadas de e-mail a optimalidade da teoria do RaBitQ. O segundo autor do TurboQuant, Daliri, confirmou que todos os autores foram informados. Contudo, o artigo manteve a descrição de “subóptimo” sem fornecer qualquer argumento de refutação.

Acusação 3: Comparação experimental “mãos amarradas e faca na mão”.

Esta é a acusação mais contundente do texto. Gao Jianyang destacou que o artigo do TurboQuant, em experimentos de comparação de velocidade, sobrepôs duas condições injustas:

Primeiro, o RaBitQ forneceu um código C++ otimizado (que suporta por padrão paralelismo multithread), mas a equipa do TurboQuant não o utilizou, optando por testar o RaBitQ com sua versão em Python traduzida. Em segundo lugar, ao testar o RaBitQ, foi utilizado um CPU de um núcleo e o multithreading foi desativado, enquanto o TurboQuant utilizou uma GPU NVIDIA A100.

O efeito combinado dessas duas condições é que: a conclusão que os leitores veem é que “RaBitQ é várias ordens de grandeza mais lento que TurboQuant”, mas não têm como saber que a premissa dessa conclusão é que a equipa da Google restringiu as mãos do concorrente antes da corrida. O artigo não divulga adequadamente as diferenças nas condições experimentais.

Resposta da Google: “A rotação aleatória é uma técnica comum, não podemos citar cada artigo que a use”.

De acordo com Gao Jianyang, a equipa do TurboQuant respondeu em março de 2026, por e-mail, que: “O uso da rotação aleatória e da transformação de Johnson-Lindenstrauss já é uma técnica padrão na área, não podemos citar cada artigo que usou esses métodos.”

A equipa de Gao Jianyang considera que isso é uma troca de conceitos: a questão não é se deve ou não citar todos os artigos que usaram a rotação aleatória, mas sim que o RaBitQ foi o primeiro a combinar esse método com compressão de vetores sob a mesma configuração de problema e a provar sua optimalidade, e o artigo do TurboQuant deveria descrever precisamente a relação entre os dois.

A conta oficial X do Stanford NLP Group partilhou a declaração de Gao Jianyang. A equipa de Gao Jianyang já publicou um comentário público na plataforma ICLR OpenReview e apresentou uma queixa formal ao presidente da ICLR e ao comitê de ética, e publicará um relatório técnico detalhado no arXiv posteriormente.

O blogueiro técnico independente Dario Salvati, em sua análise, fez uma avaliação relativamente neutra: O TurboQuant realmente tem uma contribuição matemática real, mas a relação com o RaBitQ é muito mais próxima do que o artigo afirma.

Evaporação de 90 mil milhões de dólares em capitalização de mercado: a controvérsia do artigo somada ao pânico do mercado

O momento em que esta controvérsia acadêmica ocorreu é extremamente sutil. Após a Google lançar o TurboQuant através de seu blog oficial em 24 de março, o setor global de chips de armazenamento sofreu uma venda maciça. Segundo relatos de vários meios de comunicação, como a CNBC, a Micron Technology caiu por seis dias consecutivos, com uma queda acumulada superior a 20%; a SanDisk caiu 11% em um único dia; a sul-coreana SK Hynix caiu cerca de 6%, a Samsung Electronics caiu quase 5%, e a Kioxia do Japão caiu cerca de 6%. A lógica do pânico no mercado é simples e direta: se o software de compressão pode reduzir a necessidade de memória para inferência de IA em 6 vezes, as perspectivas de demanda por chips de armazenamento sofrerão uma queda estrutural.

O analista da Morgan Stanley, Joseph Moore, refutou essa lógica em um relatório de pesquisa de 26 de março, mantendo a classificação de “overweight” para a Micron e a SanDisk. Moore apontou que o TurboQuant apenas comprime o KV Cache, um tipo específico de cache, e não o uso total de memória, classificando isso como “uma melhoria normal de produtividade”. O analista da Wells Fargo, Andrew Rocha, também citou a Paradoxo de Jevons, afirmando que melhorias de eficiência que reduzem custos podem, na verdade, estimular uma implantação de IA em maior escala, aumentando a demanda por memória.

Artigo antigo, nova embalagem: os riscos na cadeia de narrativa entre pesquisa em IA e mercado

De acordo com a análise do blogueiro técnico Ben Pouladian, o artigo do TurboQuant foi publicado em abril de 2025, não é uma nova pesquisa. No entanto, em 24 de março, a Google relançou e promoveu o artigo, mas o mercado tratou-o como uma nova descoberta a ser precificada. Esta estratégia de promoção de “artigo antigo, nova publicação”, juntamente com possíveis desvios experimentais presentes no artigo, reflete os riscos sistêmicos na cadeia de transmissão da pesquisa em IA para a narrativa do mercado.

Para os investidores em infraestrutura de IA, quando um artigo afirma ter alcançado uma melhoria de desempenho de “várias ordens de grandeza”, a primeira questão a ser levantada é se as condições de comparação de referência são justas.

A equipa de Gao Jianyang já afirmou claramente que continuará a promover a resolução formal do problema. A Google ainda não respondeu formalmente às acusações específicas da carta aberta.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar