Um artigo de jornal derrubou as ações de armazenamento

Autor: DeepChao TechFlow

25 de março, as ações de tecnologia nos EUA subiram de forma generalizada, o índice Nasdaq 100 fechou em alta, mas há um grupo de ações que está a sangrar contra a tendência:

SanDisk caiu 3,50%, Micron caiu 3,4%, Seagate caiu 2,59%, Western Digital caiu 1,63%. Todo o setor de armazenamento parece ter sido desligado de repente numa festa.

O responsável foi um artigo, ou mais precisamente, uma promoção oficial de um artigo pelo Google Research.

O que exatamente faz esse artigo?

Para entender isso, é preciso primeiro esclarecer um conceito pouco observado na infraestrutura de IA: KV Cache.

Quando você conversa com um grande modelo de linguagem, ele não precisa entender sua pergunta do zero a cada vez. Ele armazena o contexto da conversa, em um formato chamado “par de chave-valor” (Key-Value Pair), na memória, que é a KV Cache, a memória de trabalho de curto prazo do modelo.

O problema é que o tamanho da KV Cache cresce proporcionalmente à janela de contexto. Quando essa janela atinge milhões de tokens, o consumo de memória GPU pela KV Cache pode até superar os pesos do próprio modelo. Para um cluster de inferência que atende muitos usuários simultaneamente, isso é um gargalo real, que consome dinheiro todos os dias.

A versão original desse artigo apareceu inicialmente no arXiv em abril de 2025, e será oficialmente publicado na ICLR 2026. O Google Research chamou-o de TurboQuant, um algoritmo de quantização sem perda que comprime a KV Cache para 3 bits, reduzindo o uso de memória pelo menos em 6 vezes, sem necessidade de treinamento ou ajuste fino, pronto para uso imediato.

A estratégia técnica consiste em dois passos:

Primeiro, PolarQuant. Ele não usa o sistema de coordenadas cartesiano padrão para representar vetores, mas converte os vetores para coordenadas polares — com “raio” e um conjunto de “ângulos” — simplificando fundamentalmente a geometria de espaços de alta dimensão, permitindo uma quantização com menor distorção.

Segundo, QJL (Johnson-Lindenstrauss Quantizado). Após a compressão principal com PolarQuant, o TurboQuant usa uma transformação QJL de 1 bit para corrigir o erro residual de forma não tendenciosa, garantindo a precisão na estimativa do produto interno — essencial para o funcionamento correto da atenção no Transformer.

Resultado: nos testes LongBench, que cobrem tarefas de perguntas e respostas, geração de código e resumos, o TurboQuant igualou ou superou os melhores métodos existentes, como KIVI; na tarefa de recuperação de informações “needle in a haystack”, alcançou recall perfeito; em GPUs NVIDIA H100, a aceleração de operações de atenção com TurboQuant de 4 bits atingiu 8 vezes.

Métodos tradicionais de quantização têm um pecado original: a cada bloco de dados comprimido, é necessário armazenar uma “constante de quantização” para descompactar, esse metadado geralmente consome de 1 a 2 bits por valor. Parece pouco, mas, com milhões de tokens, esses bits se acumulam a uma velocidade desesperadora. O TurboQuant, com PolarQuant e QJL, elimina completamente esse custo adicional.

Por que o mercado ficou assustado?

A conclusão é direta: um modelo que precisa de 8 GPUs H100 para atender a um contexto de milhões de tokens, teoricamente, poderia ser feito com apenas 2 GPUs. Assim, provedores de inferência poderiam processar mais de 6 vezes mais solicitações simultâneas de longos contextos usando o mesmo hardware.

Isso corta profundamente a narrativa central do setor de armazenamento.

Nos últimos dois anos, a ascensão de empresas como Seagate, Western Digital e Micron foi alimentada pelo hype da IA, com uma lógica única: modelos maiores conseguem “lembrar” mais, janelas de contexto maiores consomem mais memória, e a demanda por armazenamento explode continuamente. A Seagate, por exemplo, subiu mais de 210% em 2025, e sua capacidade de produção de 2026 já está esgotada.

A chegada do TurboQuant desafia diretamente essa narrativa.

O analista de tecnologia do Wells Fargo, Andrew Rocha, comentou de forma direta: “À medida que a janela de contexto aumenta, o armazenamento na KV Cache cresce exponencialmente, elevando a demanda por memória. O TurboQuant está atacando essa curva de custo… Se for amplamente adotado, questionará fundamentalmente qual o tamanho necessário de memória.”

Porém, Rocha também colocou um ponto-chave: o “SE”.

Essa questão realmente vale discussão.

O mercado está exagerando? Provavelmente, sim.

Primeiro, a questão do título: “Aceleração de 8x”. Muitos analistas apontam que essa comparação é feita entre a nova tecnologia e sistemas antigos de 32 bits não quantizados, e não com sistemas já otimizados atualmente. Há melhorias reais, mas não tão dramáticas quanto o título sugere.

Segundo, o artigo só testou modelos pequenos. Todas as avaliações do TurboQuant usaram modelos com até cerca de 8 bilhões de parâmetros. O que realmente preocupa os fornecedores de armazenamento são modelos de 700 bilhões ou até 4 trilhões de parâmetros, onde a KV Cache é de fato astronômica. Como o TurboQuant se comporta nesses tamanhos ainda é uma incógnita.

Terceiro, a própria Google ainda não lançou código oficial. Até agora, o TurboQuant não está integrado ao vLLM, llama.cpp, Ollama ou qualquer outro framework de inferência mainstream. Foi uma implementação inicial feita por desenvolvedores da comunidade, que reproduziram a técnica a partir da matemática do artigo. Um deles alertou que, se o módulo de correção de erro QJL não for implementado corretamente, a saída pode virar um lixo incompreensível.

Mas isso não significa que as preocupações do mercado sejam infundadas.

É uma memória muscular deixada pelo episódio DeepSeek de 2025. Essa experiência ensinou ao mercado uma lição dura: avanços na eficiência algorítmica podem, de uma hora para outra, transformar a narrativa de hardware caro. Desde então, qualquer avanço de eficiência de um laboratório de ponta dispara uma reação reflexa no setor de hardware.

Além disso, o sinal vem do próprio Google Research, não de um laboratório universitário desconhecido. Essa empresa tem capacidade suficiente para transformar uma pesquisa em uma ferramenta de produção, e é uma das maiores consumidoras de inferência de IA do mundo. Se o TurboQuant for adotado internamente, a lógica de compra de servidores do Waymo, Gemini, Google Search, mudará silenciosamente.

O roteiro que se repete na história

Existe um debate clássico que merece atenção: a Paradoxo de Jevons.

No século XIX, o economista Jevons descobriu que o aumento na eficiência do vapor não reduziu o consumo de carvão na Inglaterra, mas, ao contrário, aumentou significativamente — porque a maior eficiência reduzia o custo de uso, estimulando uma aplicação maior.

Os defensores argumentam: se a Google permitir que um modelo rode com 16GB de VRAM, os desenvolvedores não vão parar aí. Usarão a economia de recursos para treinar modelos 6 vezes maiores, processar dados multimodais mais complexos, suportar janelas de contexto mais longas. A eficiência de software desbloqueia demandas que antes eram inviáveis por custo.

Porém, essa refutação tem um pressuposto: o mercado precisa de tempo para digerir e se expandir novamente. Nesse período de transformar a pesquisa em ferramenta de produção e, depois, em padrão do setor, a expansão da demanda por hardware será rápida o suficiente para preencher essa “lacuna” de eficiência?

Ninguém sabe. O mercado está precificando essa incerteza.

O verdadeiro impacto para a indústria de IA

Mais importante do que a alta ou baixa das ações de armazenamento, é a tendência mais profunda revelada pelo TurboQuant.

A corrida armamentista de IA está mudando de “acumular poder de processamento” para “máxima eficiência”.

Se o TurboQuant conseguir provar seu desempenho em modelos de grande escala, isso representará uma mudança radical: a inferência de longo contexto deixará de ser um luxo acessível apenas às maiores laboratórios, tornando-se padrão do setor.

E essa disputa por eficiência é justamente uma área onde o Google é especialista, com algoritmos de compressão quase ótimos matematicamente, baseados nos limites da teoria de Shannon, não em engenharia bruta. A taxa de distorção do TurboQuant está apenas cerca de 2,7 vezes acima do limite inferior da teoria da informação.

Isso significa que futuras inovações similares não serão únicas. Elas representam uma trajetória de pesquisa que está amadurecendo.

Para o setor de armazenamento, a questão mais realista não é “isso vai afetar a demanda?”, mas: à medida que o custo do inferência de IA continua a cair por software, até onde a barreira de proteção do hardware pode chegar?

A resposta atual é: ainda bastante ampla, mas não tão ampla a ponto de ignorar esses sinais.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar