TGTGInsighttelegram intelligenceLIVE / telegram public index
← 科技圈🎗在花频道📮
科技圈🎗在花频道📮 avatar

TGINSIGHT POST

Post #41114

@ZaiHuapd

科技圈🎗在花频道📮

Views24,600帖子阅读量
发布4月28日2026/04/28 14:11
Post content

帖子内容

🤖Qwen 开源高性能线性注意力内核库 FlashQLA,速度提升 2–3 倍 Qwen 团队开源 FlashQLA,基于 TileLang 构建,专为 Gated Delta Network 打造的线性注意力内核库。通过算子融合与代数优化,在 NVIDIA Hopper 上实现 forward 2–3 倍、backward 2 倍速度提升,尤其适合预训练与端侧智能体推理。针对长序列与小批量场景,利用门控衰减特性引入自动卡内上下文并行,并采用 warpgroup 特化内核重叠计算与搬运,有效提高 SM 利用率。 Qwen 🌸在花频道 · 茶馆讨论 · 投稿通道