Attention Residuals技术 - 财报，业绩电话会，研报，新闻

Attention Residuals技术

搜索文档

量子位· 2026-03-17 14:10

文章核心观点 - 月之暗面（Kimi）团队提出了一种名为“注意力残差”（Attention Residuals）的新型神经网络架构技术，该技术通过将对序列的注意力机制“旋转90度”应用于网络深度维度，以解决传统残差连接中的“PreNorm稀释问题”，从而显著提升大模型的训练效率[1][11][12] - 该技术在其自研的Kimi Linear 48B大模型上得到验证，实现了约25%的训练效率提升，且推理延迟增加小于2%，并在多项下游任务中展现出持平或更优的性能[6][22][23][24] - 这项创新工作源于对“时间-深度对偶性”的理论洞察，并引发了包括马斯克、Andrej Karpathy在内的行业顶尖人物的关注[3][5][28][31] 技术创新与原理 - **核心问题**：在主流PreNorm范式下，传统残差连接将所有前序层的信息等权累加，导致早期信息被稀释、难以检索，并引发隐藏状态范数无界增长，造成训练不稳定，此现象被称为“PreNorm dilution problem”[9][10] - **解决方案**：受Transformer中注意力机制处理序列的启发，团队提出在深度维度上，让当前层通过注意力机制“选择性关注”之前的层，而非无差别累加，即“注意力残差”[11][12] - **工程挑战与优化**：直接应用会导致计算复杂度达到O(L²)（L为层数），无法承受。团队采用“分块注意力残差”（Block AttnRes）方法，将连续层打包成块并压缩为“摘要向量”，将复杂度降至O(L·B)（B为块数，通常为8-16），并辅以缓存式流水线通信等工程优化[14][15][19][20][21] 性能验证与效果 - **效率提升**：在Kimi Linear 48B模型（总参数量480亿，激活参数量30亿的MoE架构）上验证，在相同计算预算下可获得更好性能；达到相同性能所需训练计算量减少约20%，相当于获得1.25倍的效率优势[6][22][23] - **任务表现**：在多项基准测试中，采用注意力残差的模型表现持平或优于基线模型，特别是在数学推理（如MATH提升至57.1分 vs 基线53.5分）、代码生成（如MBPP提升至73.9分 vs 基线72.0分）及中文理解（如C-Eval提升至82.5分 vs 基线79.6分）方面有改善[24][25] - **部署优势**：该技术是一个“即插即用”的替代方案，可直接替换原有残差连接，无需修改网络其他部分[26] 行业影响与人物背景 - **行业关注**：此项研究引起了埃隆·马斯克和OpenAI前科学家Andrej Karpathy等业界领袖的关注与讨论，Karpathy更借此反思业界对Transformer原始论文的理解仍不充分[3][5] - **团队构成**：论文的共同第一作者之一是年仅17岁的高中生陈广宇（Nathan），其经历展现了非传统的技术人才成长路径[31][32][53] - **人才路径**：陈广宇从对底层技术产生兴趣开始，通过参与黑客松、加入青年计划、在硅谷AI初创实习（该公司于2025年初完成800万美元种子轮融资），最终加入月之暗面核心团队，专注于如Flash Linear Attention等高效注意力机制的底层研发工作[36][37][43][45][47][48][49][50][51]

时间 - 深度对偶性

Artificial Intelligence

Kimi Linear 48B大模型

Attention Residuals技术

时间 - 深度对偶性

Artificial Intelligence

Kimi Linear 48B大模型

Attention Residuals技术