Workflow
全注意力
icon
搜索文档
刚刚,Kimi开源新架构,开始押注线性注意力
机器之心· 2025-10-31 12:11
文章核心观点 - 月之暗面公司提出了一种名为Kimi Linear的新型混合线性注意力架构,该架构在性能上超越传统全注意力方法,并在效率上实现显著提升 [2] - Kimi Linear架构的核心是Kimi Delta注意力,通过细粒度的门控机制优化了有限状态RNN内存的使用,解决了线性注意力表达能力的限制 [4] - 该架构在预训练、监督微调、长上下文任务和强化学习场景中均表现出优于基线模型的性能,同时将解码吞吐量提升至全注意力模型的6倍 [5][49][56][59] 技术架构创新 - Kimi Delta注意力是Gated DeltaNet的改进版本,引入了通道级变体的细粒度遗忘门,实现对记忆衰减的更精确控制 [4][20] - 该架构采用Diagonal-Plus-Low-Rank矩阵参数化转换动态,使得定制分块并行算法成为可能,计算量相比通用DPLR公式显著减少 [4][24] - 硬件高效的分块算法通过WY表示和UT变换减少非矩阵乘法的FLOPs,将二级分块矩阵计算数量从四次减少到两次,算子效率提升约100% [22][25] 模型性能表现 - 在1.4万亿token预训练中,Kimi Linear在通用知识任务上全面领先:MMLU得分73.8,BBH得分72.9,HellaSwag得分82.9 [44][46] - 长上下文评估显示Kimi Linear在RULER任务得分84.3,RepoQA任务得分68.5,平均得分54.5,显著优于MLA和GDN-H基线 [38][52][53] - 强化学习场景下,Kimi Linear在MATH500和AIME2025等数学测试集上收敛速度更快,训练准确率增长明显高于MLA基线 [56] 效率提升成果 - 模型采用3:1固定比例的混合架构,每3个KDA层与1个全局MLA层交错排列,实现最佳质量-吞吐量权衡 [4][33][43] - 在处理100万token上下文时,Kimi Linear将大型KV缓存需求减少75%,解码吞吐量达到全注意力模型的6倍 [5][59] - 预填充阶段延迟与GDN-H相当,但从128k序列长度开始效率优势明显,在1M上下文长度下解码速度优势急剧扩大 [59] 行业技术路线 - 线性注意力与全注意力的技术路线选择成为行业焦点,月之暗面押注线性注意力而MiniMax青睐全注意力 [15][16] - 研究人员认为线性注意力在处理长上下文时存在基础设施挑战,但相信这些问题将被解决,更多成果即将出现 [14] - 该项目开源了KDA内核并发布两个版本的模型检查点,使用5.7万亿token进行训练,推动下一代解码密集型LLM发展 [9][57]