闪电注意力机制 - 财报，业绩电话会，研报，新闻

闪电注意力机制

搜索文档

36氪· 2026-01-07 15:58

文章核心观点 - 原生稀疏注意力机制是一种从架构层面重新设计的注意力机制，旨在解决大模型处理超长上下文时面临的计算与访存瓶颈，其目标是在预训练阶段就以稀疏方式工作，并在推理阶段实现显著加速且不损失模型性能 [4][5][6] - NSA通过将注意力分解为压缩、选择和滑动窗口三条并行路径，并将稀疏性提升为结构原则，使模型能够学习如何以稀疏的方式运作，从而实现了效率与性能的兼得 [8][18] - NSA的成功不仅依赖于算法创新，更依赖于与现代GPU硬件特性的深度耦合，通过重新设计计算内核以优化访存模式，解决了稀疏注意力在硬件上实际加速的核心挑战 [9][20][30] 技术架构与设计原理 - NSA采用三分支架构：压缩路径负责对遥远Token进行块级聚合，提供全局轮廓和重要性评分；选择路径基于评分挑选关键块以保留细节；滑动窗口路径确保对局部上下文的完整建模，三条路径通过可学习的门控机制融合 [5][8][17] - 该架构使稀疏性成为结构学习过程的自然结果，模型在预训练中可通过反向传播直接学习最优的稀疏模式，无需依赖人工设计的启发式规则 [8][10] - 滑动窗口分支为训练初期提供了稳定的局部注意力通道，确保模型能先建立稳固的短程依赖关系，避免了因过早稀疏化而导致的学习不稳定 [16][17][22] 性能表现与效率提升 - 在一个27B参数（采用GQA与MoE）的模型上，NSA在64k上下文长度下，训练前向速度可达全注意力的约9倍，反向速度可达6倍 [6] - 在解码阶段，NSA将KV缓存访存量降至全注意力的大约十分之一，实现了接近理论上限的11.6倍加速 [6] - 在MMLU、GSM8K、DROP等通用基准测试上，NSA模型性能不逊于全注意力模型；在LongBench、64k Needle-in-a-Haystack等长上下文任务上表现更优；在AIME 24数学推理中，即使在8k或16k生成窗口内也展现出更可靠的链式推理精度 [6] 硬件协同与工程实现 - NSA专为GPU访存特性设计，其以连续Token块为基本操作单元的结构与GPU访存方式天然兼容，通过新的Triton内核实现同一GQA组内多头共享稀疏后的KV索引，并一次性连续加载KV块到SRAM，最大化Tensor Core利用率 [5][9] - 传统闪电注意力机制内核假设数据访问是密集且连续的，无法有效支持稀疏、动态的访问模式，NSA通过统一GQA组内的KV块加载，从根本上改变了稀疏注意力的硬件访问模式，将优化重点从减少计算量转向减少访存 [19][20][30] - 现代GPU显存带宽相对容量更为稀缺，迫使行业模型设计必须考虑访问的稀疏性和选择性，以保障解码阶段的每秒生成Token数，NSA正是在这种硬件现实下的必然选择 [24][27][29] 行业意义与发展趋势 - 超长上下文处理能力正成为大模型的核心竞争力，但标准全注意力的平方复杂度已成为系统瓶颈，在64k上下文下，Softmax注意力可占据70%–80%的解码延迟 [4] - 随着智能体、检索增强生成、长序列推理、强化学习等后训练阶段任务的重要性上升，算力消耗急剧增加，要求模型架构必须支持全生命周期的稀疏化高效训练，NSA为此提供了可行的基础架构方向 [23][31][33] - 未来的大模型优化将更侧重于“后训练架构”创新，NSA展示了一种可能性：通过让架构本身吸收稀疏性，可以重塑模型从预训练到部署全周期的计算效率 [32][33]