Le message du site Coinjie, Qwen团队开源的FlashQLA是一套针对GDN(gated delta network,Qwen3-next / 3.5 / 3.6全系列使用的线性注意力层)的高性能算子库。在H200上实测,前向计算速度比Fla Triton kernel快2-3倍,反向计算速度快2倍在TP8场景中,前向计算速度最高可达5.33倍。提速的核心在于利用GDN门控值的指数衰减特性实现卡内自动上下文并行(autocp),从而跳过传统方法中计算校正矩阵的步骤。系统会根据batch size、头数和序列长度自动判断是否启用CP,无需手动配置。

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler