Згідно з моніторингом Beating, компанія 智谱 опублікувала аналіз проблем з кодуванням, повторним читанням та рідкісними символами у серії моделей GLM-5 у сценарії Coding Agent. З березня з’явилися перші відгуки користувачів, і аномалії виникали лише під високим навантаженням та при довгому контексті (середньо понад 70 тисяч токенів) у задачах Coding Agent, у стандартних умовах інференції їх не можна було відтворити. 智谱 повідомила, що їх система інференції обробляє щодня сотні мільйонів викликів Coding Agent.

Після кількох тижнів розслідувань команда виявила два незалежні базові баги гонки. Перший виник у архітектурі розділення PD (розподіл попереднього заповнення та декодування на різні вузли): при тайм-ауті на стороні декодування запит був скасований і KV Cache (кеш обчислених станів уваги, щоб уникнути повторних обчислень) був звільнений, але запис RDMA на стороні попереднього заповнення ще не закінчився, і новий запит був призначений на ту ж відеопам’ять, через що старі дані перезаписували нові. Виправлення полягає у додаванні явної синхронізації перед звільненням, щоб переконатися, що запис завершено, перш ніж звільняти. Після впровадження рівень аномалій знизився з десятих часток проміле до менше трьох проміле.

Другий баг був у HiCache (баг рівнів KV Cache): при асинхронній передачі кешу з пам’яті CPU у кеш, між лініями завантаження та обчислення відсутній синхронізаційний пункт, і обчислювальна сторона може почати читати дані ще до їх повного завантаження. Після виправлення цей тип аномалій зник повністю, патч був поданий у спільноту SGLang (PR #22811).

Під час розслідування також було виявлено несподіване явище: показник прийняття спекулятивного зразка (техніка прискорення, яка передбачає токен за допомогою меншої моделі, а потім перевіряє більшою) може слугувати сигналом для виявлення аномалій. При появі кодуванням більшість тестових токенів відхиляються, а при повторному читанні рівень прийняття значно вищий. Команда ввела онлайн-моніторинг: при досягненні порогового значення автоматично припиняється генерація та повторна спроба.

Після виправлення багів команда також оптимізувала систему: розподіл KV Cache за шарами LayerSplit, де кожен GPU зберігає лише частину кешу рівнів, а не весь обсяг, за допомогою координації через широкомовлення. При 90% рівні попадання кешу, при довжині запиту від 40K до 120K, пропускна здатність зросла на 10% до 132%, і чим довший контекст, тим більший приріст.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
433.5K Популярність
#
USSeeksStrategicBitcoinReserve
58.68M Популярність
#
IsraelStrikesIranBTCPlunges
37.17K Популярність
#
BitcoinETFOptionLimitQuadruples
976.19K Популярність
#
#FedHoldsRateButDividesDeepen
29.87K Популярність

Закріпити

карта сайту

Інтелектуальний аналіз GLM-5 «Проблема з кодуванням»: щодня мільйони викликів Coding Agent, два конкуренційні баги приховані у KV Cache

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити