Workflow
Attention Residuals技术
icon
搜索文档
Kimi新架构让马斯克叹服!17岁高中生作者一战成名
量子位· 2026-03-17 14:10
文章核心观点 - 月之暗面(Kimi)团队提出了一种名为“注意力残差”(Attention Residuals)的新型神经网络架构技术,该技术通过将对序列的注意力机制“旋转90度”应用于网络深度维度,以解决传统残差连接中的“PreNorm稀释问题”,从而显著提升大模型的训练效率[1][11][12] - 该技术在其自研的Kimi Linear 48B大模型上得到验证,实现了约25%的训练效率提升,且推理延迟增加小于2%,并在多项下游任务中展现出持平或更优的性能[6][22][23][24] - 这项创新工作源于对“时间-深度对偶性”的理论洞察,并引发了包括马斯克、Andrej Karpathy在内的行业顶尖人物的关注[3][5][28][31] 技术创新与原理 - **核心问题**:在主流PreNorm范式下,传统残差连接将所有前序层的信息等权累加,导致早期信息被稀释、难以检索,并引发隐藏状态范数无界增长,造成训练不稳定,此现象被称为“PreNorm dilution problem”[9][10] - **解决方案**:受Transformer中注意力机制处理序列的启发,团队提出在深度维度上,让当前层通过注意力机制“选择性关注”之前的层,而非无差别累加,即“注意力残差”[11][12] - **工程挑战与优化**:直接应用会导致计算复杂度达到O(L²)(L为层数),无法承受。团队采用“分块注意力残差”(Block AttnRes)方法,将连续层打包成块并压缩为“摘要向量”,将复杂度降至O(L·B)(B为块数,通常为8-16),并辅以缓存式流水线通信等工程优化[14][15][19][20][21] 性能验证与效果 - **效率提升**:在Kimi Linear 48B模型(总参数量480亿,激活参数量30亿的MoE架构)上验证,在相同计算预算下可获得更好性能;达到相同性能所需训练计算量减少约20%,相当于获得1.25倍的效率优势[6][22][23] - **任务表现**:在多项基准测试中,采用注意力残差的模型表现持平或优于基线模型,特别是在数学推理(如MATH提升至57.1分 vs 基线53.5分)、代码生成(如MBPP提升至73.9分 vs 基线72.0分)及中文理解(如C-Eval提升至82.5分 vs 基线79.6分)方面有改善[24][25] - **部署优势**:该技术是一个“即插即用”的替代方案,可直接替换原有残差连接,无需修改网络其他部分[26] 行业影响与人物背景 - **行业关注**:此项研究引起了埃隆·马斯克和OpenAI前科学家Andrej Karpathy等业界领袖的关注与讨论,Karpathy更借此反思业界对Transformer原始论文的理解仍不充分[3][5] - **团队构成**:论文的共同第一作者之一是年仅17岁的高中生陈广宇(Nathan),其经历展现了非传统的技术人才成长路径[31][32][53] - **人才路径**:陈广宇从对底层技术产生兴趣开始,通过参与黑客松、加入青年计划、在硅谷AI初创实习(该公司于2025年初完成800万美元种子轮融资),最终加入月之暗面核心团队,专注于如Flash Linear Attention等高效注意力机制的底层研发工作[36][37][43][45][47][48][49][50][51]