"GPT"的搜尋結果
今天
05:21

DeepSeek V4 引爆美國辯論:智庫質疑晶片使用,Replit 執行長為開放創新辯護

Gate News 訊息,4 月 24 日——美國就 DeepSeek V4 的技術能力與合規性引發了爭論。Chris McGuire,外交關係委員會 (CFR) 的資深研究員,以及曾任白宮國家安全委員會與國防部官員,發表了分析,主張 V4 並未改變美中 AI 的競爭格局。據 McGuire 稱,DeepSeek 自己的 V4 報告承認,其推理能力較前沿模型落後約 3 到 6 個月,基準測試對標的是六個月前發布的 GPT-5.2 與 Gemini 3.0 Pro。 McGuire 對此表示擔憂:雖然 V4 報告披露了在推論階段對 NVIDIA GPU 與 Huawei Ascend NPU 的適配,但並未公開指定開發期間使用的 GPU 型號或訓練成本。他質疑這種沉默是否意味著使用了受出口管制的 NVIDIA Blackwell 晶片,並指出 V3 先前曾聲稱使用了 2,000 張 H800 GPU,成本為 5.57 百萬美元。DeepSeek 已否認使用 Blackwell,稱該模型是在 NVIDIA H800 與 Huawei Ascend 910C 處理器上訓練。 Replit 執行長 Amjad Masad 反駁了 McGuire 的分析,認為中國科學家正在公開分享真正的 AI 突破,而美國的政策制定者與遊說者則放大了「中國蒸餾」的疑慮。Masad 強調 DeepSeek 官方表述中披露的架構創新,包括令牌級注意力壓縮 DeepSeek Sparse Attention 以及用於長上下文運算的顯著效率提升。他指出,V4-Pro 相較於 V3.2,在 1M 上下文長度下展現了大幅更低的每令牌推論運算量與 KV 快取需求,並強調這些架構進展與訓練資料蒸餾無關,而且所有研究人員(包括美國的實驗室)都能從開源發展中受益。
展開
04:54

Perplexity 揭露 Web 搜尋代理後訓練方法;基於 Qwen3.5 的模型在準確率與成本上超越 GPT-5.4

Perplexity 使用搭配 Qwen3.5 模型的 SFT,並在其後使用帶有 RL 的強化學習;透過多跳 QA 資料集與規則量表檢查來提升搜尋的準確性與效率,實現業界一流的 FRAMES 表現。 摘要:Perplexity 的線上搜尋代理後訓練流程,結合監督式微調 (SFT),以透過線上強化學習 (RL)(使用 GRPO 演算法)來強制遵循指令與語言一致性。RL 階段使用專有的多跳可驗證問答資料集,以及基於規則量表的對話資料,以防止 SFT 漂移,並採用獎勵閘控與同組內效率懲罰。評估顯示 Qwen3.5-397B-SFT-RL 在 FRAMES 上取得頂尖表現:單次工具呼叫準確率為 57.3%,四次呼叫為 73.9%,每次查詢成本為 $0.02;在這些指標上超越 GPT-5.4 與 Claude Sonnet 4.6。定價採用 API 計費,且不包含快取。
展開
12:05

Kimi K2.6 登頂 OpenRouter 編程基準測試,超越 Claude 與 GPT 系列

Kimi K2.6 登頂 OpenRouter 排名榜,超越 Claude、GPT 與開源競爭對手,顯示本土 AI 進展並縮小與全球領先者之間的差距。 摘要:Kimi.ai 宣布其最新模型 Kimi K2.6 在 OpenRouter 編程能力排行榜中排名第一,領先開發者評測。基準測試顯示,相較於 Claude、GPT 系列及其他開源模型,K2.6 在各類編程任務上表現更出色,凸顯其在程式碼生成與開發任務處理方面的進步,並表明本土 AI 朝向國際領先者前進。
展開
07:05

Anthropic 移除 Claude Code 引發開發者反彈;OpenAI 獲得社群支持

Anthropic 將 Claude Code 從 Pro 方案中下架,引發批評,因為開發者在遷移到 OpenAI;Codex 仍然免費/基礎方案,GPT-5.4 與 Image 2.0 提升效能,帶動大量用戶遷移。 摘要:本文探討 Anthropic 將 Claude Code 從 $20 Pro 方案移除,這導致開發者的反彈;他們稱這是隱性漲價與可靠性風險。文章將此舉與 OpenAI 的政策形成對比:OpenAI 讓 Codex 保持在免費與基礎層級,同時強調 GPT-5.4 與 ChatGPT Images 2.0 的出色模型表現,並指出用戶正快速遷移到 OpenAI;據報 Codex 每週活躍用戶已超過 400 萬。
展開