Which Attention is All You Need？

注意力机制优化背景 - 当前大语言模型发展面临数据和算力扩展瓶颈使得算法创新变得尤为重要[7] - Transformer架构的前馈神经网络模块已被混合专家模型成功优化业界创新压力与投入因此集中于注意力机制[5][7] - 专家观点认为注意力机制有望成为继混合专家模型之后AI架构的下一个重大突破方向[7] 注意力机制面临的挑战 - 标准自注意力机制的计算复杂度随序列长度呈O(N^2)增长成为高效长序列建模的根本障碍[9] - 二次方复杂度导致长序列预填充阶段计算量巨大解码阶段的关键值缓存占用大量内存带宽构成推理瓶颈[9] 主流优化路径：线性注意力 - 线性注意力目标是通过重新参数化或近似softmax注意力为线性操作将计算复杂度从O(N^2)降至O(N)[8][10] - 其设计思路主要分为三类：基于核函数的方法带遗忘机制的方法以及作为上下文学习器的方法[10] - 月之暗面团队提出的Kimi线性注意力采用门控Delta注意力核心通过通道感知门控机制让每个通道学习独立遗忘速率[11] - Kimi线性注意力采用分层混合架构每三层线性层后插入一个标准全注意力层比例为3:1[12] - 测试显示Kimi线性注意力最多可减少75%的大型关键值缓存需求在处理100万token上下文时速度是全注意力的6倍[13] 主流优化路径：稀疏注意力 - 稀疏注意力不试图近似整个注意力矩阵而是将计算限制在完整键空间的一个子集上仅计算被选中的token交互[8][14] - 主要方法包括固定模式块稀疏和基于聚类的稀疏注意力[14] - DeepSeek团队从块粒度的原生稀疏注意力演进到token粒度的DeepSeek稀疏注意力[15][17] - DeepSeek稀疏注意力通过轻量级Lightning Indexer进行O(N)扫描为每个token计算重要性代理分数并对得分最高的k个token执行全注意力计算[17] - 在H800 GPU集群测试中该方案在128k长上下文条件下将主模型注意力复杂度从O(L^2)降为O(Lk) 单位token计算成本最高下降60%-70%[17] 其他优化方案 - 除线性和稀疏路径外也存在混合扩展方案[8] - MiniMax团队出于工程理性考量在M2工作中选择重新拥抱全局注意力尝试通过工程优化使O(N^2)复杂度在特定场景下能被高效利用[8]