Các mô hình Trung Quốc lần trước xếp toàn bộ top 10 trong SWE-rebench bị chế nhạo là "gian lận điểm", lần này chiếm bốn vị trí

BlockBeatNews

Theo theo dõi của 1M AI News, SWE-rebench là một bài kiểm tra chuẩn mới dựa trên thời gian thực, lấy dữ liệu từ GitHub hàng tháng về các nhiệm vụ phần mềm mới (issue + PR), mô hình không thể tối ưu hóa trước cho các đề bài. Người duy trì Ibragim đã công bố cập nhật bảng xếp hạng vào ngày 23 tháng 3, loại bỏ các ví dụ trình diễn trước đó và giới hạn 80 bước, đồng thời thêm các nhiệm vụ đánh giá hỗ trợ.

Top 10 mới nhất:

  1. Claude Opus 4.6: 65.3%
  2. GPT-5.2 medium: 64.4%
  3. GLM-5: 62.8%
  4. GPT-5.4 medium: 62.8%
  5. Gemini 3.1 Pro Preview: 62.3%
  6. DeepSeek-V3.2: 60.9%
  7. Claude Sonnet 4.6: 60.7%
  8. Claude Sonnet 4.5: 60.0%
  9. Qwen3.5-397B-A17B: 59.9%
  10. Step-3.5-Flash: 59.6%

Mô hình mã nguồn mở của Zhipu AI, GLM-5 (giấy phép MIT), xếp thứ ba với 62.8%, là mô hình mã nguồn mở cao nhất trong bảng xếp hạng. Trong top 10, có 4 mô hình của Trung Quốc, ngoài GLM-5 còn có DeepSeek-V3.2 (thứ sáu), Qwen3.5-397B-A17B của Alibaba (thứ chín), và Step-3.5-Flash (thứ mười). Người phụ trách toàn cầu của Zhipu Z.ai, Lý Tử Huyền, bình luận rằng lần cập nhật trước của SWE-rebench, các mô hình Trung Quốc đều không nằm trong top 10, bị chỉ trích là “benchmaxing” (đẩy điểm).

Xem bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận