我今天看到一個有趣的基準測試,對 AI 模型的能力提出了不少看法。PinchBench 在 OpenClaw 代理任務上測試了各種模型,結果非常不同。



Gemini 3 Flash 以 95.1% 的成功率位居第一。 但有趣的是,其他模型也非常接近。minimax-m2.1 達到了 93.6%,kimi-k2.5 則是 93.4%。Claude Sonnet 4.5 為 92.7%,而 GPT-4o 則停留在 85.2%。

這些模型之間的差距看起來並不大,但當涉及代理任務時,這些微小的差異也很重要。 如果你想了解 AI 模型的真正能力,這樣的基準測試會非常有幫助。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆