谷歌は本日、Gemini 3.1 Proをリリースしました。テストスコアを見たばかりで、これはランキングトップを狙っていると感じます(モデルの軍拡競争は続き、半導体にとって追い風!)😂
公式の位置付けは非常に明確です:複雑なタスクに特化して設計されており、例えば深い研究、エンジニアリングの難題、長い推論チェーン、エージェント型ワークフローなどです。
主な特徴:1Mトークンのコンテキストウィンドウ(変更なし)
マルチモーダル対応(テキスト+画像+動画+音声+コード)
最大出力64kトークン
現在の主流モデル(Claude Opus 4.6、GPT-5.2/5.3など)との性能比較:
ARC-AGI-2(最も難しい抽象推論基準):
Gemini 3.1 Pro 77.1%、Claude 4.6(68.8%)を約8-9ポイントリード、
GPT-5シリーズより20-30ポイント以上リード。これは最大の進歩であり、コア推論の質的飛躍を示しています。
GPQA Diamond(PhDレベルの科学推論):94.3%、Claude 4.6(91.3%)やGPT-5.2(92.4%)をわずかにリードし、差は2-3ポイント、基準はほぼ飽和状態です。
SWE-Bench Verified(実際のソフトウェアエンジニアリングタスク):80.6%、Claude 4.6(約76-77%)を3-5ポイントリー
原文表示