闪电注意力机制
搜索文档
北大袁境阳:稀疏注意力机制让模型 10 倍加速——Attention
36氪· 2026-01-07 15:58
文章核心观点 - 原生稀疏注意力机制是一种从架构层面重新设计的注意力机制,旨在解决大模型处理超长上下文时面临的计算与访存瓶颈,其目标是在预训练阶段就以稀疏方式工作,并在推理阶段实现显著加速且不损失模型性能 [4][5][6] - NSA通过将注意力分解为压缩、选择和滑动窗口三条并行路径,并将稀疏性提升为结构原则,使模型能够学习如何以稀疏的方式运作,从而实现了效率与性能的兼得 [8][18] - NSA的成功不仅依赖于算法创新,更依赖于与现代GPU硬件特性的深度耦合,通过重新设计计算内核以优化访存模式,解决了稀疏注意力在硬件上实际加速的核心挑战 [9][20][30] 技术架构与设计原理 - NSA采用三分支架构:压缩路径负责对遥远Token进行块级聚合,提供全局轮廓和重要性评分;选择路径基于评分挑选关键块以保留细节;滑动窗口路径确保对局部上下文的完整建模,三条路径通过可学习的门控机制融合 [5][8][17] - 该架构使稀疏性成为结构学习过程的自然结果,模型在预训练中可通过反向传播直接学习最优的稀疏模式,无需依赖人工设计的启发式规则 [8][10] - 滑动窗口分支为训练初期提供了稳定的局部注意力通道,确保模型能先建立稳固的短程依赖关系,避免了因过早稀疏化而导致的学习不稳定 [16][17][22] 性能表现与效率提升 - 在一个27B参数(采用GQA与MoE)的模型上,NSA在64k上下文长度下,训练前向速度可达全注意力的约9倍,反向速度可达6倍 [6] - 在解码阶段,NSA将KV缓存访存量降至全注意力的大约十分之一,实现了接近理论上限的11.6倍加速 [6] - 在MMLU、GSM8K、DROP等通用基准测试上,NSA模型性能不逊于全注意力模型;在LongBench、64k Needle-in-a-Haystack等长上下文任务上表现更优;在AIME 24数学推理中,即使在8k或16k生成窗口内也展现出更可靠的链式推理精度 [6] 硬件协同与工程实现 - NSA专为GPU访存特性设计,其以连续Token块为基本操作单元的结构与GPU访存方式天然兼容,通过新的Triton内核实现同一GQA组内多头共享稀疏后的KV索引,并一次性连续加载KV块到SRAM,最大化Tensor Core利用率 [5][9] - 传统闪电注意力机制内核假设数据访问是密集且连续的,无法有效支持稀疏、动态的访问模式,NSA通过统一GQA组内的KV块加载,从根本上改变了稀疏注意力的硬件访问模式,将优化重点从减少计算量转向减少访存 [19][20][30] - 现代GPU显存带宽相对容量更为稀缺,迫使行业模型设计必须考虑访问的稀疏性和选择性,以保障解码阶段的每秒生成Token数,NSA正是在这种硬件现实下的必然选择 [24][27][29] 行业意义与发展趋势 - 超长上下文处理能力正成为大模型的核心竞争力,但标准全注意力的平方复杂度已成为系统瓶颈,在64k上下文下,Softmax注意力可占据70%–80%的解码延迟 [4] - 随着智能体、检索增强生成、长序列推理、强化学习等后训练阶段任务的重要性上升,算力消耗急剧增加,要求模型架构必须支持全生命周期的稀疏化高效训练,NSA为此提供了可行的基础架构方向 [23][31][33] - 未来的大模型优化将更侧重于“后训练架构”创新,NSA展示了一种可能性:通过让架构本身吸收稀疏性,可以重塑模型从预训练到部署全周期的计算效率 [32][33]