論文一篇がストレージ株を下落させた

作者:深潮 TechFlow

3月25日、米国株式市場のハイテク株は全面高となり、ナスダック100指数は上昇したが、一部の銘柄は逆風の中で血を流している。

サンディスクは3.50%下落、マイクロンは3.4%下落、シーゲイトは2.59%下落、西部データは1.63%下落。ストレージセクター全体はまるでパーティー会場の電源が突然落とされたかのようだ。

その原因は一つの論文、あるいはより正確には、Google Researchが正式に推進した論文だ。

この論文は一体何をしたのか

この件を理解するには、AIインフラの中であまり注目されてこなかった概念、KVキャッシュを理解する必要がある。

大規模言語モデルと対話する際、モデルは毎回ゼロから理解を始めるわけではない。会話の文脈全体を、「キーとバリューのペア」(Key-Value Pair)という形式でメモリに保存している。これがKVキャッシュ、モデルの短期作業記憶だ。

問題は、KVキャッシュのサイズが文脈ウィンドウの長さに比例して増大することだ。文脈ウィンドウが百万トークン規模に達すると、KVキャッシュが消費するGPUメモリは、モデルの重みを超える可能性もある。大量のユーザーに同時にサービスを提供する推論クラスターにとって、これは現実のインフラのボトルネックであり、日々コストがかかる。

この論文のオリジナルバージョンは、最初に2025年4月のarXivに登場し、ICLR 2026で正式に発表される予定だ。Google ResearchはこれをTurboQuantと名付けた。これはKVキャッシュを3ビットに圧縮し、メモリ使用量を少なくとも6倍削減する無損量子化アルゴリズムで、訓練や微調整を必要とせず、すぐに使える。

具体的な技術的アプローチは二段階だ。

第一段階はPolarQuant。これは標準的なデカルト座標系ではなく、ベクトルを極座標(半径と角度のセット)に変換し、高次元空間の幾何学的複雑さを根本的に簡素化する。これにより、後続の量子化を低歪みで行える。

第二段階はQJL(Quantized Johnson-Lindenstrauss)。PolarQuantによる主要な圧縮後、TurboQuantは1ビットのQJL変換を用いて残留誤差を無偏差補正し、内積推定の精度を保証する。これはTransformerの注意機構の正確な動作にとって極めて重要だ。

結果として、質問応答、コード生成、要約タスクを含むLongBenchベンチマークで、TurboQuantは既存の最良基準KIVIを上回る性能を示し、「針の穴を通す」検索タスクでも完璧なリコールを達成。NVIDIA H100上では、4ビットTurboQuantは注意力演算の高速化を8倍にした。

従来の量子化手法には一つの根本的な問題がある。データを圧縮するたびに、「量子化定数」を追加で保存し、解凍方法を記録する必要があり、そのメタデータのオーバーヘッドは、各値に対して1〜2ビットに達することもある。少しのビットだが、百万トークンの文脈では、これらのビットは絶望的な速度で蓄積される。TurboQuantはPolarQuantの幾何学的回転とQJLの1ビット残差補正により、この追加コストを根本的に排除している。

市場はなぜ動揺しているのか?

結論の直接性は、無視しがたいものだ。百万トークンの文脈を処理できるモデルには、通常8つのH100が必要だが、実は2つだけで済む可能性がある。推論サービス提供者は、同じハードウェアで6倍以上の並列長文リクエストを同時処理できる。

これはストレージセクターの核心的なストーリーに対して、致命的な一撃だ。

過去2年間、Seagate、西部データ、MicronがAI資本の熱狂の中で神格化されたのは、根底にある論理が一つだけだ。大規模モデルはますます多くを「記憶」できるようになり、長い文脈ウィンドウはメモリの需要を無制限に拡大し続ける。Seagateは2025年に株価が210%以上上昇し、同社の2026年の生産能力はすでに完売している。

しかし、TurboQuantの登場は、このストーリーの前提に直接挑戦している。

富国銀行のテクノロジーアナリスト、Andrew Rochaのコメントは非常に直接的だ。「文脈ウィンドウが拡大するにつれ、KVキャッシュのデータストレージは爆発的に増加し、メモリ需要もそれに伴って上昇する。TurboQuantはこのコスト曲線に直接攻撃を仕掛けている……もし広く採用されれば、必要なメモリ容量について根本的な疑問を投げかけることになる。」

ただし、Rochaも一つの前提を付け加えている。それは「IF(もし)」だ。

この問題の本質的な議論点

市場の反応は過剰ではないか?というと、答えはおそらく「少しはそうだ」だ。

まず、「8倍高速化」の見出しの誇張問題だ。複数のアナリストは指摘する。これは新技術と旧式の32ビット非量子化システムとの比較であり、実際の展開済みの最適化されたシステムと比較したものではない。実際の性能向上はあるが、見出しが示すほど劇的ではない。

次に、論文は小規模モデルのみをテストしている。TurboQuantの評価は、パラメータ数が最大80億程度のモデルに限定されている。本当にストレージ供給者を悩ませるのは、700億や4000億パラメータの超大規模モデルだ。そこではKVキャッシュは天文学的な数字になる。TurboQuantのこれらの規模での性能は、現時点では未知数だ。

第三に、Google自身は公式コードを公開していない。現時点では、TurboQuantはvLLM、llama.cpp、Ollama、その他の主流推論フレームワークには未搭載だ。コミュニティの開発者が論文の数学的推論から早期に再現した例もあり、ある再現者はQJLの誤差補正モジュールを不適切に実装すると、出力が文字化けになると指摘している。

しかし、これが市場の懸念が根拠のないものではないことを意味しない。

これは2025年のDeepSeek時に残った集団的な記憶の反動だ。その時の教訓は、アルゴリズムの効率突破が、たちまち高価なハードウェアの物語を一変させるということだった。それ以降、トップクラスのAI研究所からの効率改善は、ハードウェアセクターに条件反射的な反応を引き起こす。

さらに今回は、Google Researchという、名も知らぬ大学の研究室ではなく、論文を実用ツールに変換できるだけのエンジニアリング能力を持ち、かつ世界最大のAI推論の消費者の一つでもある企業からの発信だ。TurboQuantが内部に導入されれば、WaymoやGemini、Google Searchのサーバー調達のロジックも静かに変わるだろう。

歴史は繰り返す

ここには一つの古典的な議論、ジェヴァンズ逆説がある。

19世紀の経済学者ジェヴァンズは、蒸気機関の効率向上は、英国の石炭消費を減らすどころか、むしろ大幅に増加させたと指摘した。効率向上により使用コストが下がったため、より大規模な利用が促進されたからだ。

支持者の論理はこうだ。もしGoogleがモデルを16GBのGPUメモリで動かせるようにすれば、開発者はそこで止まらず、節約した計算資源を使って6倍複雑なモデルを動かし、より長い多モーダルデータを処理し、より長い文脈をサポートするだろう。ソフトウェアの効率化は、以前はコストのために手が届かなかったニーズを解放する。

しかし、この反論には前提がある。それは、市場が効率化による「ギャップ」を埋めるのに時間を要するということだ。

TurboQuantが論文から実用ツールへ、そして業界標準へと変わる過程で、ハードウェアの需要拡大が効率化の恩恵を十分に追い越すことができるかどうかは誰にもわからない。

答えは不明だ。市場はこの不確実性に価格をつけている。

AI業界にとっての真の意味

ストレージ株の値動き以上に注目すべきは、TurboQuantが示すより深い潮流だ。

AIの軍拡競争の主戦場は、「計算能力の積み上げ」から「究極の効率性」へと移行している。

もしTurboQuantが大規模モデルでその性能を証明できれば、根本的な変革がもたらされる。長い文脈推論は、「トップ研究機関だけが負担できる贅沢」から、「業界標準」へと変わる。

この効率化競争のポイントは、Googleが最も得意とする分野、すなわちシャノン情報理論の極限追求に基づく数学的にほぼ最適な圧縮アルゴリズムにある。これは単なるエンジニアリングの積み重ねではなく、理論的な最適性に近づく研究の成熟の証だ。TurboQuantの理論的歪み率は、情報理論の下界より約2.7倍高い定数因子にすぎない。

これにより、今後も類似の突破は続くと考えられる。それは一つの研究路線が成熟に向かっている証拠だ。

ストレージ業界にとってのより冷静な問いは、「今回の変化が需要に影響を与えるか」ではなく、「AI推論のコスト曲線がソフトウェア層で継続的に低下する中、ハードウェアの競争優位性はどこまで維持できるか」だ。

現時点の答えは、「まだ十分に広いが、無視できるほどではない」だ。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン