Effondrement des actions du secteur du stockage, le document de 900 milliards de dollars de Google sur l'IA, accusé de falsification expérimentale

2026-03-30 06:18:21

Auteur : Deep潮 TechFlow

Une publication de Google, prétendant « compresser l’utilisation de mémoire de l’IA à 1/6 », a la semaine dernière provoqué la chute de plus de 90 milliards de dollars de la capitalisation boursière de fabricants de puces mémoire comme Micron, SanDisk, etc.

Cependant, seulement deux jours après la publication, le principal contre-argument — une lettre ouverte de plusieurs milliers de mots publiée par Gao Jianyang, post-doctorant à l’École polytechnique fédérale de Zurich, accusant l’équipe de Google d’avoir testé leurs concurrents avec un script Python sur CPU mono-core, tout en testant eux-mêmes avec un GPU A100, et de ne pas avoir corrigé ces problèmes malgré leur connaissance préalable — a rapidement dépassé 4 millions de lectures sur Zhihu, a été relayée par le compte officiel Stanford NLP, et a secoué à la fois le monde académique et le marché.

(lecture de référence : une seule publication a fait plonger le marché des semi-conducteurs)

Le cœur de cette controverse est simple : une publication largement promue par Google, qui a directement provoqué une panique de vente dans le secteur des puces, déforme-t-elle systématiquement un travail antérieur publié, et, par la création délibérée d’expériences injustes, construit-elle une narration fausse sur la performance ?

Que fait TurboQuant : réduire le « brouillon » de l’IA à un sixième

Lorsqu’un grand modèle de langage génère une réponse, il doit à la fois écrire et revenir en arrière pour vérifier ce qu’il a déjà calculé. Ces résultats intermédiaires sont temporairement stockés dans la mémoire vidéo, appelée dans le secteur « KV Cache » (cache clé-valeur). Plus la conversation est longue, plus ce « brouillon » devient épais, consommant beaucoup de mémoire et augmentant le coût.

L’algorithme TurboQuant, développé par l’équipe de recherche de Google, a pour principal argument de compresser ce brouillon à 1/6 de sa taille initiale, tout en affirmant une perte de précision nulle et une accélération du raisonnement jusqu’à 8 fois. La publication a été initialement déposée en avril 2025 sur arXiv, acceptée en janvier 2026 par la conférence de premier plan en IA ICLR 2026, puis, le 24 mars, relancée par le blog officiel de Google.

Techniquement, l’idée de TurboQuant peut être simplement comprise comme : d’abord appliquer une transformation mathématique pour « laver » des données désordonnées en un format uniforme, puis utiliser une table de compression optimale pré-calculée pour compresser chaque partie, enfin utiliser un mécanisme de correction d’erreur d’un bit pour ajuster les déviations dues à la compression. Des implémentations indépendantes ont confirmé que l’efficacité de la compression est substantielle, et la contribution mathématique de l’algorithme est réelle.

Le débat ne porte pas sur la possibilité d’utiliser TurboQuant, mais sur ce que Google a fait pour prouver qu’il « dépasse largement ses concurrents ».

Lettre ouverte de Gao Jianyang : trois accusations, toutes percutantes

Le 27 mars à 22h, Gao Jianyang a publié un long article sur Zhihu, et a simultanément soumis un commentaire officiel sur la plateforme de revue d’ICLR, OpenReview. Gao est le premier auteur de l’algorithme RaBitQ, publié en 2024 lors de la conférence de premier plan SIGMOD dans le domaine des bases de données, traitant du même problème — compression efficace de vecteurs haute dimension.

Ses accusations se divisent en trois points, chacun appuyé par des échanges de courriels et une chronologie précise.

Première accusation : utilisation d’une méthode clé d’un autre, sans mentionner.

TurboQuant et RaBitQ partagent une étape clé : avant la compression, effectuer une « rotation aléatoire » sur les données. Cette opération transforme des données initialement irrégulières en une distribution uniforme prévisible, réduisant considérablement la difficulté de compression. C’est la partie la plus centrale et la plus proche entre les deux algorithmes.

L’auteur de TurboQuant lui-même a reconnu cela dans sa réponse lors de la revue, mais n’a jamais expliqué dans l’article que cette méthode était liée à RaBitQ. Un point crucial : en janvier 2025, le second auteur de TurboQuant, Majid Daliri, a contacté l’équipe de Gao pour demander de l’aide pour déboguer une version Python réécrite à partir du code source de RaBitQ. Les courriels détaillent les étapes de reproduction et les erreurs — en d’autres termes, l’équipe de TurboQuant connaît très bien les détails techniques de RaBitQ.

Un relecteur anonyme d’ICLR a également indiqué que les deux utilisent la même technique, demandant une discussion approfondie. Mais dans la version finale, l’équipe de TurboQuant n’a pas ajouté cette discussion, et a même déplacé la description incomplète de RaBitQ dans l’annexe.

Deuxième accusation : affirmer sans preuve que la théorie de l’autre est « sous-optimale ».

Le papier de TurboQuant qualifie directement RaBitQ de « sous-optimal » (suboptimal), en raison d’une analyse mathématique jugée « grossière ». Gao Jianyang a cependant souligné que la version étendue de RaBitQ a rigoureusement prouvé que son erreur de compression atteint la limite optimale mathématique — cette conclusion a été publiée dans une conférence de haut niveau en informatique théorique.

En mai 2025, l’équipe de Gao a expliqué en détail par plusieurs échanges que la théorie de RaBitQ est optimale. Daliri, le second auteur de TurboQuant, a confirmé avoir informé tous les auteurs. Pourtant, le document final conserve l’expression « sous-optimal » sans fournir d’arguments contraires.

Troisième accusation : dans la comparaison expérimentale, « on lie la main gauche et on brandit le couteau de la droite ».

C’est la plus percutante. Gao Jianyang indique que dans l’expérience de vitesse, TurboQuant a ajouté deux conditions injustes :

Premièrement, RaBitQ fournit un code C++ optimisé (supportant le multithreading par défaut), mais l’équipe de TurboQuant ne l’a pas utilisé, préférant leur propre version Python. Deuxièmement, lors des tests, RaBitQ a été exécuté sur un CPU mono-core avec multithreading désactivé, alors que TurboQuant utilisait un GPU NVIDIA A100.

L’effet combiné est que le résultat présenté est « RaBitQ plusieurs ordres de grandeur plus lent que TurboQuant », sans que l’on sache que cette conclusion repose sur le fait que l’équipe de Google a entravé la concurrence. Les différences expérimentales n’ont pas été suffisamment divulguées.

Réponse de Google : « La rotation aléatoire est une technique standard, on ne peut pas toutes les citer »

Selon Gao Jianyang, en mars 2026, l’équipe de TurboQuant a répondu par courriel : « L’utilisation de la rotation aléatoire et de la transformation de Johnson-Lindenstrauss est une technique standard dans le domaine, il est impossible de citer chaque article l’utilisant. »

L’équipe de Gao pense qu’il s’agit d’un sophisme : le problème n’est pas de citer tous les articles utilisant la rotation aléatoire, mais que RaBitQ, dans un cadre identique, a été le premier à combiner cette méthode avec la compression vectorielle et à prouver son optimalité. La publication de TurboQuant aurait dû décrire précisément cette relation.

Le compte officiel Stanford NLP a relayé la déclaration de Gao Jianyang. Son équipe a publié un commentaire sur OpenReview, a déposé une plainte officielle auprès du président d’ICLR et du comité d’éthique, et publiera bientôt un rapport technique détaillé sur arXiv.

Le blogueur indépendant Dario Salvati a donné une évaluation relativement neutre : TurboQuant apporte une contribution mathématique réelle, mais la relation avec RaBitQ est beaucoup plus étroite que ce que la publication indique.

Chute de 90 milliards de dollars : la controverse sur la publication alimente la panique du marché

Le timing de cette controverse académique est extrêmement subtil. Après la publication de TurboQuant sur le blog officiel le 24 mars, le secteur des semi-conducteurs mémoire a connu une vente massive. Selon CNBC et d’autres médias, Micron a chuté pendant six jours consécutifs, avec une baisse cumulée de plus de 20 % ; SanDisk a perdu 11 % en une journée ; SK Hynix a reculé d’environ 6 %, Samsung Electronics de près de 5 %, Kioxia d’environ 6 %. La logique de panique est simple : si la compression logicielle peut réduire par six la mémoire nécessaire pour l’inférence IA, la demande pour les puces mémoire sera structurellement revue à la baisse.

Un analyste de Morgan Stanley, Joseph Moore, a réfuté cette logique dans un rapport du 26 mars, maintenant ses recommandations « achat » pour Micron et SanDisk. Moore a souligné que TurboQuant ne compresse que le cache KV, un type spécifique de mémoire tampon, et non la mémoire totale, la qualifiant de « simple amélioration de productivité ». Un autre analyste de Wells Fargo, Andrew Rocha, invoque le paradoxe de Jevons, selon lequel une augmentation de l’efficacité qui réduit les coûts peut stimuler une déploiement plus massif de l’IA, augmentant finalement la demande de mémoire.

Ancienne publication, nouvelle mise en forme : le risque de décalage entre recherche IA et narration du marché

Selon l’analyse du blogueur technique Ben Pouladian, la publication de TurboQuant date d’avril 2025 et n’est pas une nouvelle recherche. La relance par Google en mars 2026 sur leur blog est une nouvelle mise en avant, mais le marché la considère comme une percée totalement nouvelle. Cette stratégie de « vieille publication, nouvelle diffusion », combinée à d’éventuels biais expérimentaux, reflète un risque systémique dans la chaîne de transmission entre la recherche académique en IA et la narration du marché.

Pour les investisseurs dans l’infrastructure IA, lorsqu’une publication affirme une amélioration de plusieurs ordres de grandeur, la première question à poser est : les conditions de référence sont-elles équitables ?

L’équipe de Gao Jianyang a déjà indiqué qu’elle continuerait à pousser pour une résolution officielle du problème. Google n’a pas encore répondu officiellement aux accusations spécifiques dans la lettre ouverte.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime