SWE-rebench найновіший рейтинг: китайські моделі ШІ займають перші чотирнадцять місць, GLM-5 посідає третє місце

GateNews

2026-03-25 05:55:32

Новини Gate News, 25 березня, підтримувач бенчмарку SWE-rebench Ібрагім опублікував оновлення рейтингу 23 березня. SWE-rebench — це щомісячний реальний бенчмарк, який витягує нові завдання з GitHub, і модель не може попередньо оптимізуватися під конкретні задачі. У цьому оновленні скасовано попередні демонстраційні приклади та обмеження у 80 кроків, додано допоміжні оцінювальні завдання.

Останні топ-10 рейтингів: 1. Claude Opus 4.6 (65.3%); 2. GPT-5.2 medium (64.4%); 3. GLM-5 (62.8%); 4. GPT-5.4 medium (62.8%); 5. Gemini 3.1 Pro Preview (62.3%); 6. DeepSeek-V3.2 (60.9%); 7. Claude Sonnet 4.6 (60.7%); 8. Claude Sonnet 4.5 (60.0%); 9. Qwen3.5-397B-A17B (59.9%); 10. Step-3.5-Flash (59.6%).

Відкритий модельний проект GLM-5 (ліцензія MIT) від Z.ai посідає третє місце з показником 62.8%, що є найвищим серед відкритих моделей у рейтингу. Чотири моделі з Китаю увійшли до топ-10: окрім GLM-5, це DeepSeek-V3.2 (шосте місце), Qwen3.5-397B-A17B (дев’яте) та Step-3.5-Flash (десяте). Керівник глобального напрямку Z.ai Лі Цзюсянь зазначив, що під час останнього оновлення SWE-rebench усі китайські моделі були поза топ-10.

Переглянути оригінал

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів