幣界網消息,Qwen團隊開源的FlashQLA是一套針對GDN(gated delta network,Qwen3-next / 3.5 / 3.6全系列使用的線性注意力層)的高性能算子庫。在H200上實測,前向計算速度比Fla Triton kernel快2-3倍,反向計算速度快2倍在TP8場景中,前向計算速度最高可達5.33倍。提速的核心在於利用GDN門控值的指數衰減特性實現卡內自動上下文並行(autocp),從而跳過傳統方法中計算校正矩陣的步驟。系統會根據batch size、頭數和序列長度自動判斷是否啟用CP,無需手動配置。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆