注意力残差（Attention Residuals） - 财报，业绩电话会，研报，新闻

注意力残差（Attention Residuals）

搜索文档

机器之心· 2026-03-16 18:23

文章核心观点 - 由Kimi团队提出的“注意力残差”技术，通过用依赖输入的注意力机制取代传统的残差连接，解决了深层神经网络中的信息稀释和隐藏状态爆炸问题，实现了性能提升和计算效率优化，可能标志着深度学习架构的范式转变 [4][8][31] 技术背景与问题 - 自2015年ResNet诞生以来，传统的“y = x + f(x)”残差连接机制统治了神经网络架构近十年 [1] - 传统残差连接在模型向更深层发展时存在两大副作用：1）信息稀释，导致浅层特征贡献度随深度线性衰减；2）隐藏状态爆炸，导致数值不稳定和训练困难 [7][8] 核心创新：注意力残差 - 核心思想是“将注意力旋转90°”，将Transformer在时间序列上取代RNN的注意力机制，应用于网络的深度维度 [9][14] - 每一层生成一个可学习的Query，与之前所有层的Key进行匹配，通过Softmax分配权重，有选择地聚合历史层特征，公式为：$$h_{l}=\alpha_{0\to l}\cdot h_{1}+\sum_{i=1}^{l-1}\alpha_{i\to l}\cdot f_{i}(h_{i})$$ [9][13][14] - 该方法解决了传统残差连接将信息“压缩”进单一求和状态的问题，允许深层直接高效利用浅层特征 [12] 工程实现：块注意力残差 - 全量注意力残差计算复杂度为O(L²)，在超深模型中会导致显存和通信量爆炸 [14] - 研究团队设计了块结构以提升效率，将模型分成N个块，块内进行特征累加，块间进行基于注意力的聚合 [14][15] - 实验表明，即使模型有上百层，仅需划分成约8个块即可获得绝大部分性能增益，将内存开销从O(Ld)降至O(Nd) [17][18] 实验效果与性能提升 - 实验基于与Kimi Linear一致的混合专家模型架构，仅将残差连接替换为AttnRes [20] - 在5.6 PFLOP/s-days的计算量下，Block AttnRes的损耗为1.692，基准模型为1.714，实现了1.25倍的计算优势 [24] - 下游任务评测显示，Block AttnRes在所有任务上均达到或超过基准模型，在多步推理任务上提升尤为显著，例如GPQA-Diamond提升7.5分，HumanEval提升3.1分 [27][28][33] - 该技术成功抑制了隐藏状态的数值爆炸，实现了更均匀的梯度分布，提升了训练稳定性 [32][33] 行业影响与意义 - OpenAI的Jerry Tworek等资深研究者受此启发，认为这可能意味着“深度学习2.0”时代的到来 [3] - 该研究揭示了模型的“深度”与“时间”的对偶性，为重新思考包括优化器在内的基础架构提供了新视角 [8][30][31] - 该技术以极小的推理延迟代价（增加<2%）获得了更优的网络性能，展示了架构创新的巨大潜力 [22]

注意力残差（Attention Residuals）

注意力残差（Attention Residuals）