Which Attention is All You Need?
机器之心·2025-11-09 09:30

注意力机制优化背景 - 当前大语言模型发展面临数据和算力扩展瓶颈 使得算法创新变得尤为重要[7] - Transformer架构的前馈神经网络模块已被混合专家模型成功优化 业界创新压力与投入因此集中于注意力机制[5][7] - 专家观点认为 注意力机制有望成为继混合专家模型之后AI架构的下一个重大突破方向[7] 注意力机制面临的挑战 - 标准自注意力机制的计算复杂度随序列长度呈O(N^2)增长 成为高效长序列建模的根本障碍[9] - 二次方复杂度导致长序列预填充阶段计算量巨大 解码阶段的关键值缓存占用大量内存带宽 构成推理瓶颈[9] 主流优化路径:线性注意力 - 线性注意力目标是通过重新参数化或近似softmax注意力为线性操作 将计算复杂度从O(N^2)降至O(N)[8][10] - 其设计思路主要分为三类:基于核函数的方法 带遗忘机制的方法 以及作为上下文学习器的方法[10] - 月之暗面团队提出的Kimi线性注意力采用门控Delta注意力核心 通过通道感知门控机制让每个通道学习独立遗忘速率[11] - Kimi线性注意力采用分层混合架构 每三层线性层后插入一个标准全注意力层 比例为3:1[12] - 测试显示Kimi线性注意力最多可减少75%的大型关键值缓存需求 在处理100万token上下文时速度是全注意力的6倍[13] 主流优化路径:稀疏注意力 - 稀疏注意力不试图近似整个注意力矩阵 而是将计算限制在完整键空间的一个子集上 仅计算被选中的token交互[8][14] - 主要方法包括固定模式 块稀疏和基于聚类的稀疏注意力[14] - DeepSeek团队从块粒度的原生稀疏注意力演进到token粒度的DeepSeek稀疏注意力[15][17] - DeepSeek稀疏注意力通过轻量级Lightning Indexer进行O(N)扫描 为每个token计算重要性代理分数 并对得分最高的k个token执行全注意力计算[17] - 在H800 GPU集群测试中 该方案在128k长上下文条件下将主模型注意力复杂度从O(L^2)降为O(Lk) 单位token计算成本最高下降60%-70%[17] 其他优化方案 - 除线性和稀疏路径外 也存在混合扩展方案[8] - MiniMax团队出于工程理性考量 在M2工作中选择重新拥抱全局注意力 尝试通过工程优化使O(N^2)复杂度在特定场景下能被高效利用[8]