Новини Gate News, 25 березня, підтримувач бенчмарку SWE-rebench Ібрагім опублікував оновлення рейтингу 23 березня. SWE-rebench — це щомісячний реальний бенчмарк, який витягує нові завдання з GitHub, і модель не може попередньо оптимізуватися під конкретні задачі. У цьому оновленні скасовано попередні демонстраційні приклади та обмеження у 80 кроків, додано допоміжні оцінювальні завдання.
Останні топ-10 рейтингів: 1. Claude Opus 4.6 (65.3%); 2. GPT-5.2 medium (64.4%); 3. GLM-5 (62.8%); 4. GPT-5.4 medium (62.8%); 5. Gemini 3.1 Pro Preview (62.3%); 6. DeepSeek-V3.2 (60.9%); 7. Claude Sonnet 4.6 (60.7%); 8. Claude Sonnet 4.5 (60.0%); 9. Qwen3.5-397B-A17B (59.9%); 10. Step-3.5-Flash (59.6%).
Відкритий модельний проект GLM-5 (ліцензія MIT) від Z.ai посідає третє місце з показником 62.8%, що є найвищим серед відкритих моделей у рейтингу. Чотири моделі з Китаю увійшли до топ-10: окрім GLM-5, це DeepSeek-V3.2 (шосте місце), Qwen3.5-397B-A17B (дев’яте) та Step-3.5-Flash (десяте). Керівник глобального напрямку Z.ai Лі Цзюсянь зазначив, що під час останнього оновлення SWE-rebench усі китайські моделі були поза топ-10.