DeepSeekは再び「価格の屠殺者」になる しかし今回は価格だけを屠っているわけではない

著者:晓静

TokenはAI時代の価値座標を再構築しており、DeepSeek V4プレビュー版がリリースされたことで、再び「価格殺し屋」として注目を集めているが、新たなToken価格設定の命題ももたらしている。同じ数量のTokenでも、異なるシステムでは実質コストが一桁異なる場合があり、大規模モデルはシステムレベルの価格設定に向かっている。

DeepSeek V4プレビュー版がついにリリースされ、大規模モデルの価格を引き下げた。これはまさにDeepSeekの「特性」に合致している。

V4-Flashの価格設定は入力1元、出力2元/百万Token、キャッシュヒット後は入力0.2元のみ;V4-Proは入力12元、出力24元/百万Token、キャッシュヒット時は入力1元、リリース時には期間限定の75%割引を適用、5月5日まで。両モデルともネイティブで百万Tokenのコンテキストをサポート。

今週末、DeepSeek-V4-Proは引き続き期間限定割引を実施し、価格を2.5割に引き下げ、キャッシュヒット率の入力価格もさらに10%割引。あるAIエンジニアは冗談半分に言った。「週末後、DeepSeek-V4-Proは無料まであと0.025元だ」。

現時点で、2024年のDeepSeek V2を起点とした価格戦争からちょうど2年が経過した。この2年間で、大規模モデルの推論コストは指数関数的に低下し、キャッシュヒットなどを考慮した実効コストの観点からは、累積で百倍近くの削減も達成されている。

しかし今日、価格を引き下げる意義は以前よりも重要になっている。AIはすでに長距離の複雑なタスクを主体とするエージェント(Agent)パラダイムに切り替わりつつあり、一つのタスクの背後には数十回、百回を超えるモデル呼び出しが伴う。

この業界の文脈において、DeepSeek V4プレビュー版のリリースは、二つの重要な情報とともにある。一つは、百万コンテキストが二モデルのネイティブ標準になったこと;二つは、キャッシュ価格の強調と割引の重ね合わせだ。これらを組み合わせることで、標準入力出力価格を同じ規格のモデルの下限に圧縮し、エージェントが一つのタスクを完了する総コストを最も競争力のある水準に抑えることを目指している。

Tokenには新しい価格体系が登場

2024年の値下げを振り返ると、本質的には大規模モデルを「高価な実験」から「実用ツール」へと引き下げる動きだった。当時、アーキテクチャ革新による推論効率向上により、モデル呼び出しの価格はGPT-4時代の毎百万Token 10〜30ドルの範囲から、急速に1ドル台に圧縮された。

図:過去2年間のToken価格の指数関数的低下

これは典型的な「絶対価格の下方探査」の例だ。開発者は低コストで大規模モデルを呼び出せるようになり、アプリケーション層も本格的に開放され始めた。しかし、その段階では、価格は依然として「単一呼び出しコスト」に対応し、Tokenは統一された課金単位とみなされ、呼び出し回数とコストはほぼ線形関係だった。

2年後のDeepSeek V4では、価格構造自体も変化している。キャッシュ(cache)メカニズムが主流の課金体系に入り、Tokenは「新規計算」と「重複計算」の二つのコストに分割された。高いキャッシュヒット率のシナリオでは、同じ入力でも価格は10分の1以下に下がることもあり、静的な価格設定から、システム設計に強く依存する変動要素へと変化している。

図:Tokenは「新規計算」と「重複計算」に分割される

価格だけを見ると、V4は依然としてDeepSeekの低価格戦略を継続している。国内市場では、阿里通義、智谱GLM、月之暗面Kimiなどの同等モデルの価格はおおよそ入力1〜4元、出力4〜12元の範囲だが、V4-Flashは入力1元、出力2元で、業界平均の約1/3〜1/4に位置している。

Pro版の12元/24元はフラッグシップモデルに近いが、百万規模のコンテキストはデフォルトの能力であり、追加料金ではない。グローバルで比較すると、価格は一部競合製品の10分の1から50分の1程度に過ぎない。例えば、GPT-5.5の公式価格は:入力5ドル/百万Token、キャッシュ入力(cached input)0.5ドル/百万Token、出力30ドル/百万Token。Claude Opus 4.7はOpus 4.6の価格体系を踏襲し、おおよそ入力5ドル/百万Token、出力25ドル/百万Token。

海外のフラッグシップモデルは、能力上限、エコシステムの成熟度、Tokenの利用効率などで完全に比較できるわけではないが、価格は唯一の指標ではない。しかし、同じエージェントタスク群において、呼び出しコストの差はビジネスの実現性に直結する。海外メーカーも価格設定のプレッシャーに直面しており、サム・アルトマンはChatGPT Proのサブスクリプションが赤字状態であることを公に認めているし、Dario Amodeiも「過度に攻撃的な価格設定の業界リスク」を警告している。一定のシステム的背景には、計算能力の供給、研究開発の償却、市場戦略が含まれる。

これが今回の価格優位性の意義をより高めている。2024年の業界は「使えるかどうか」を解決している段階だが、今日のエージェントAIパラダイムでは、より核心的な問題は「規模を持って運用できるかどうか」だ。

一つのエージェントタスクは、数十回から百回以上のモデル呼び出しを伴い、多くの入力はsystem prompt、ツールスキーマ、履歴記憶から成る。これらは高い再利用性を持ち、コストが「膨張」しやすい部分でもある。

DeepSeek V4は、まさにこの「重複計算」のコスト圧縮に重点を置いている。

図:DeepSeek V4は「コスト」をエンジニアリング最適化可能な変数に変えた。左側は能力の整合性、右側はコストの崖。百万コンテキスト下で推論計算とキャッシュ占有が大幅に低減し、長距離タスクの指数関数的コスト増を抑制している。これが今回の価格戦争の真の推進力だ。

自身の製品の価格推移を具体的に見ると、この変化には歴史的なパターンもある。前世代のV3.2は、未命中キャッシュの入力価格が2元、命中時は0.2元、出力は3元だったが、V4-Flashは入力を1元に、出力を2元に下げ、最も直接的な変化は「未命中入力価格の半減」だ。多回呼び出しのエージェントシナリオでは、累積入力コストが大きな割合を占めるため、この調整のレバレッジ効果は表面の値下げ以上に大きい。

Pro版の価格は入力12元、出力24元と一見高いが、DeepSeekは技術レポートで「Pro版は高性能計算資源の制約を受けており、下半期に昇腾950超ノードの大量導入と展開が進めば、Proの価格は大幅に引き下げられる」と述べている。これは、現状の価格は供給のボトルネックを反映したものであり、実際のコストを示すものではないと理解できる。

両モデルのポジショニングも明確だ。Flashは高並列・低遅延のバッチ処理向け、Proは複雑なエージェントフロー、長距離コード生成、深い推論を担う。技術レポートによると、DeepSeekはすでに実際の研究開発タスクを用いてV4のコードエージェント能力を評価し、内部評価ではClaudeシリーズと直接比較している。

「価格殺し屋」の背後

DeepSeekはどうやって価格を引き下げたのか?

従来のアテンション機構は長文処理時、計算量がシーケンス長の二乗に比例して増加する。例えば1M Tokenの計算量は128Kの64倍となる。これが過去に「百万コンテキスト」が商用化しにくかった理由だ。KVキャッシュのメモリ占有もシーケンス長に比例して増加し、1Mを処理しようとすると、並列度を削るか、何倍ものマシンを投入する必要があり、コスト面では全く割に合わない。

これが海外メーカーが一般的に「短いウィンドウをデフォルトとし、長いウィンドウには追加料金を設定する」戦略を採用している理由だ。Anthropicは200K超の長文には別料金を設定し、価格を倍増させている。

図:DeepSeek V4のCSA(圧縮疎注意力)は、KVキャッシュを圧縮し、Top-k選択で重要なコンテキストだけを計算することで、長文シナリオにおける計算とキャッシュの負荷を大幅に削減している。

V4の解決策は、「圧縮」と「疎性」を重ね合わせたものだ。まず、m個のTokenごとにKVキャッシュを圧縮し(CSA圧縮率4、HCA圧縮率128)、次に各クエリがトップkの重要なエントリだけに注意を向ける。前者はメモリ削減、後者は計算負荷削減を実現し、二つのボトルネックを同時に解決している。

図:DeepSeek V4のHCA(重圧縮注意力)は、長いシーケンスのKVキャッシュを極限まで圧縮し、局所ウィンドウ情報を保持しつつ計算とストレージのコストをさらに削減している。これが百万規模のコンテキストコスト低減の鍵だ。

技術レポートによると、1Mコンテキスト下で、V4-Proの1Token推論FLOPsはV3.2の27%、KVキャッシュ占有は10%に過ぎない。V4-Flashはさらに進んで、FLOPsはV3.2の10%、KVキャッシュは7%に抑えられている。さらにFP4量子化感知学習、Muon最適化器、自社開発のMega-kernel MegaMoEなどのインフラ最適化を重ね、V4は訓練から推論までのコストを一貫して圧縮・最適化している。

低価格はアーキテクチャコストの自然な結果だ。国内大規模モデル企業の一員は、Tencent Techに対し、「国内の大規模モデルのAPI価格(自社も含む)は、基本的にコスト能力に依存している。コストを無視して価格を競う企業はない。だから、技術的なコスト優位性は非常に重要だ」と語った。

阿里雲のCTO、周靖人も「価格引き下げは非常に真剣なプロセスであり、産業の発展、開発者や企業ユーザーのフィードバックを総合的に考慮して決定されるものであり、単なる価格戦争ではない」と強調している。

なぜ今回の「値下げ」がより重要なのか?

需要側から見ると、今こそ「価格を下げる」ことがより切実だ。Deloitteの最新Token Economicsレポートは、AT&Tの例を挙げている。同社はエージェントシステム導入後、1日のToken消費が80億から270億に増加した。Stevens工科大学の分析によると、エージェントシステムは多回対話において「二乗的Token増加」トラップを抱えており、10回目の対話では1回の呼び出しのToken数が第1回の7倍に達する可能性がある。

モデルの価格は、エージェントが商用運用できるかどうかを左右する。

CIO誌の三週間前の報道では、AIソリューション企業Addo AIのCEO、Ayesha Khannaの見解として、「継続的なエージェントを最先端モデルAPIに接続し続けると、Token消費、長距離コンテキスト、多段推論、重複出力のために経済性が急速に悪化する。場合によっては、単一タスクのコストが人間の作業より高くなることもある」と述べている。これはエージェントの商用化における最も現実的なボトルネックであり、技術は動作してもコスト計算が追いつかない状態だ。

V4の今回のいくつかの動きは、ほぼすべてこの業界のボトルネックに焦点を当てている。百万コンテキストをデフォルト能力にし、エージェントが長距離コンテキストに追加料金を払わずに済むようにしたこと。キャッシュヒット時の入力価格を業界最低水準に抑え、システムプロンプトの繰り返し使用を想定したエージェントシナリオに適合させている。技術レポートでは、ツール呼び出しシナリオにおいても、すべての推論コンテンツを完全に保持している点も強調されている(V3.2では新規ユーザーメッセージごとに破棄していた)。これも、多回呼び出しを必要とするエージェントの要件に対応するためだ。

V4は、エージェントAIのコストラインを引き下げられるのか?

最後に、重要な問いは、V4がエージェントAI全体のコストラインを引き下げられるかどうかだ。今回の状況は、より複雑になっている。

まず、他のメーカーが追随するかどうかだ。もしV4がこのラウンドで同時に価格を引き下げる動きがあれば、業界全体のコスト曲線は本当に下方シフトする。しかし、前述の通り、モデルの価格はコスト構造に大きく依存しており、モデルメーカーの粗利率は短期的に圧縮の余地が少なく、追随は限定的だ。

次に、高性能計算資源の供給だ。DeepSeekの技術レポートでも述べられているが、V4-Proのサービススループットは現状限定的だ。昇腾950超ノードなどの国産計算資源の大量展開と、DeepSeekのハードウェア間のエンジニアリング進展次第で、安定供給が可能かどうかが決まる。

技術レポート第3.1節では、DeepSeekがNVIDIA GPUとHuawei昇腾NPUの両プラットフォームで細粒度のエキスパート並列方案を検証したと記されている。これは、DeepSeekが昇腾とNVIDIAを並列にハードウェア検証リストに記載した初の例であり、推論経路を単一ハードウェア依存から解放しようとする試みだ。これが実証されれば、国内大規模モデル産業にとって長期的に大きな価値を持つ。

三つ目は、エージェントシナリオにおけるToken構造のさらなる最適化だ。現状、多くのTokenが無駄に消費されているのは、エージェントのアーキテクチャ自体に由来する部分もある。価格低下だけではなく、エージェントの設計次第でコストが爆発する可能性もある。これが、今盛り上がるHarnessシステムの意義だ。

Deepseek V4プレビュー版は、確かに価格表を引き下げ、百万コンテキストを標準能力にし、出力価格も百万Tokenあたり1ドル以下にできる構造的土台を持っている。ただし、今回のコスト削減は、より複雑なシステム的命題に直面している。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン