注意力残差(Attention Residuals)
搜索文档
将注意力旋转 90 度!今天,Kimi 的「注意力残差」火了
机器之心· 2026-03-16 18:23
文章核心观点 - 由Kimi团队提出的“注意力残差”技术,通过用依赖输入的注意力机制取代传统的残差连接,解决了深层神经网络中的信息稀释和隐藏状态爆炸问题,实现了性能提升和计算效率优化,可能标志着深度学习架构的范式转变 [4][8][31] 技术背景与问题 - 自2015年ResNet诞生以来,传统的“y = x + f(x)”残差连接机制统治了神经网络架构近十年 [1] - 传统残差连接在模型向更深层发展时存在两大副作用:1)信息稀释,导致浅层特征贡献度随深度线性衰减;2)隐藏状态爆炸,导致数值不稳定和训练困难 [7][8] 核心创新:注意力残差 - 核心思想是“将注意力旋转90°”,将Transformer在时间序列上取代RNN的注意力机制,应用于网络的深度维度 [9][14] - 每一层生成一个可学习的Query,与之前所有层的Key进行匹配,通过Softmax分配权重,有选择地聚合历史层特征,公式为:$$h_{l}=\alpha_{0\to l}\cdot h_{1}+\sum_{i=1}^{l-1}\alpha_{i\to l}\cdot f_{i}(h_{i})$$ [9][13][14] - 该方法解决了传统残差连接将信息“压缩”进单一求和状态的问题,允许深层直接高效利用浅层特征 [12] 工程实现:块注意力残差 - 全量注意力残差计算复杂度为O(L²),在超深模型中会导致显存和通信量爆炸 [14] - 研究团队设计了块结构以提升效率,将模型分成N个块,块内进行特征累加,块间进行基于注意力的聚合 [14][15] - 实验表明,即使模型有上百层,仅需划分成约8个块即可获得绝大部分性能增益,将内存开销从O(Ld)降至O(Nd) [17][18] 实验效果与性能提升 - 实验基于与Kimi Linear一致的混合专家模型架构,仅将残差连接替换为AttnRes [20] - 在5.6 PFLOP/s-days的计算量下,Block AttnRes的损耗为1.692,基准模型为1.714,实现了1.25倍的计算优势 [24] - 下游任务评测显示,Block AttnRes在所有任务上均达到或超过基准模型,在多步推理任务上提升尤为显著,例如GPQA-Diamond提升7.5分,HumanEval提升3.1分 [27][28][33] - 该技术成功抑制了隐藏状态的数值爆炸,实现了更均匀的梯度分布,提升了训练稳定性 [32][33] 行业影响与意义 - OpenAI的Jerry Tworek等资深研究者受此启发,认为这可能意味着“深度学习2.0”时代的到来 [3] - 该研究揭示了模型的“深度”与“时间”的对偶性,为重新思考包括优化器在内的基础架构提供了新视角 [8][30][31] - 该技术以极小的推理延迟代价(增加<2%)获得了更优的网络性能,展示了架构创新的巨大潜力 [22]