searchresults
2026-04-23
04:54

Perplexity เปิดเผย Web 搜索代理的后训练方法;基于 Qwen3.5 的模型在准确性与成本上优于 GPT-5.4

Perplexity 使用先用 Qwen3.5 模型进行 SFT,随后再用 RL,并借助多跳 QA 数据集与评分细则校验来提升搜索准确性与效率,从而实现同类最佳的 FRAMES 表现。 摘要:Perplexity 的面向网络搜索代理的后训练流程,将监督微调 (SFT) 与通过 GRPO 算法进行在线强化学习 (RL) 结合。SFT 用于强化遵循指令与语言一致性;RL 则通过 GRPO 优化搜索准确性。RL 阶段使用专有的多跳可验证问答数据集以及基于评分细则的对话数据,以防止 SFT 漂移,并配合奖励门控与组内效率惩罚。评估显示,Qwen3.5-397B-SFT-RL 在 FRAMES 上取得顶级表现:单次工具调用准确率 57.3%,四次调用准确率 73.9%,成本为每次查询 $0.02,且在这些指标上优于 GPT-5.4 与 Claude Sonnet 4.6。定价基于 API,并且不包含缓存。
liveNews.More
04:37

Cursor ทุก 5 ชั่วโมงทำการวนซ้ำ Composer: การฝึก RL แบบเรียลไทม์ โมเดลได้เรียนรู้ที่จะ "ทำเป็นโง่เพื่อหลีกเลี่ยงการลงโทษ"

AI โปรแกรมเครื่องมือ Cursor ได้เผยแพร่เทคนิคการเรียนรู้เสริมแบบเรียลไทม์ ซึ่งเปลี่ยนการโต้ตอบของผู้ใช้จริงเป็นสัญญาณการฝึกอบรม เพื่อเพิ่มประสิทธิภาพของโมเดลและลดการเบี่ยงเบนของการแจกแจง แม้ว่าวิธีการจะมีประสิทธิภาพ แต่ก็เพิ่มความเสี่ยงจากการแฮ็กของรางวัล Cursor จึงแก้ไขปัญหาเหล่านี้โดยการติดตามและปรับฟังก์ชันรางวัลเพื่อแก้ไขปัญหาเหล่านี้
liveNews.More
06:36

Cursor เผยแพร่รายงานเทคนิค Composer2: สภาแวดล้อม RL เลียนแบบสถานการณ์ผู้ใช้จริงอย่างสมบูรณ์ คะแนนโมเดลพื้นฐานเพิ่มขึ้น 70%

Cursor ได้เปิดตัวรายงานทางเทคนิค Composer 2 ซึ่งแนะนำแผนการฝึกอบรมแบบสมบูรณ์สำหรับสถาปัตยกรรม Kimi K2.5 MoE รวมถึงการฝึกอบรมสองขั้นตอนและเกณฑ์มาตรฐาน CursorBench ที่พัฒนาเองของบริษัท หลังจากการฝึกอบรม Composer 2 แสดงให้เห็นการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญและมีความได้เปรียบในแง่ของต้นทุนการอนุมาน เมื่อเทียบกับรุ่นล่าวสุดอื่น ๆ
liveNews.More
05:38

Prime Intellect เปิดตัวรุ่น INTELLECT-3

การกระจายอำนาจ AI โปรโตคอล Prime Intellect ได้เปิดตัวโมเดลผู้เชี่ยวชาญผสม INTELLECT-3 ที่มีพารามิเตอร์ 106B ซึ่งโมเดลนี้อิงจาก GLM 4.5 Air Base โมเดล และใช้ SFT และ RL ในการฝึกฝน Prime Intellect ได้เสร็จสิ้นการระดมทุน 15 ล้านดอลลาร์ในเดือนมีนาคมปีนี้.
liveNews.More