Workflow
Kimi Delta Attention (KDA)
icon
搜索文档
AI产业跟踪:月之暗面发布全新注意力架构:KimiLinear,持续关注AgentLLM技术迭代
长江证券· 2025-11-06 19:05
行业投资评级 - 投资评级:看好,维持 [8] 报告核心观点 - 月之暗面于10月31日发布全新混合线性注意力架构Kimi Linear,旨在解决大语言模型在处理长序列任务时的计算效率和性能瓶颈,其核心代码已开源 [2][5] - Kimi Delta Attention是一种表达能力更强的线性注意力模块,通过精细门控机制和定制优化算法,在提升表达能力的同时实现了卓越的硬件效率 [2][10] - 该架构有望成为下一代Agent LLM的基石技术,通过显著降低长文本推理和多Agent场景下的成本与延迟,加速AI应用大规模落地 [10] - 考虑到成本仍是制约token消耗量的核心因素,Kimi Linear的出现有望开辟降本新范式,报告继续看好国产AI产业链,持续重点推荐铲子股和卡位优势显著的巨头 [2][10] 技术架构分析 - 采用3:1混合层级结构,即3个KDA层加1个全注意力层固定比例堆叠,在此架构下KV缓存减少75%,长序列解码更高效 [10] - 采用无位置编码全注意力策略,MLA层取消显式位置编码,专注于内容关联,由KDA层承担位置感知,避免了RoPE频率固定带来的“长度过拟合”,模型外推能力显著提升 [10] - 可与MoE结合,实验中模型总参数480亿,每次推理仅激活30亿参数,稀疏计算进一步提升训练和推理效率,在不显著增加计算成本的同时扩展模型规模 [10] 性能表现 - 基础能力测试:随着序列长度从256增长至2048,KDA在所有任务中均取得最高准确率,且收敛速度显著快于GDN [10] - 短上下文性能:在几乎所有类别中,Kimi Linear一致性优于MLA和GDN-H;在指令微调阶段的通用任务多个基准上取得最高分,数学与代码任务中在AIME 2025等基准超越GDN和MLA [10] - 长上下文性能:在128K长度下,Kimi Linear平均分54.5,高于MLA的52.2和GDN-H的51.2;在RULER基准得分为84.3,高于MLA的81.3;在RepoQA代码理解任务中得分最高 [10] - 强化学习性能:在数学强化学习任务上收敛速度更快,训练曲线与MLA差距随时间扩大,测试集性能显著领先 [10] 效率优势 - 解码速度:在100万长度序列下,MLA每token需要11.48毫秒,Kimi Linear仅需1.84毫秒,速度快6.3倍 [10] - 预填充速度:在100万长度序列下,Kimi Linear速度是MLA的2.9倍 [10] - 内存占用:Kimi Linear的KV缓存大小仅为纯MLA模型的约25% [10]
刚刚,Kimi开源新架构,开始押注线性注意力
机器之心· 2025-10-31 12:11
文章核心观点 - 月之暗面公司提出了一种名为Kimi Linear的新型混合线性注意力架构,该架构在性能上超越传统全注意力方法,并在效率上实现显著提升 [2] - Kimi Linear架构的核心是Kimi Delta注意力,通过细粒度的门控机制优化了有限状态RNN内存的使用,解决了线性注意力表达能力的限制 [4] - 该架构在预训练、监督微调、长上下文任务和强化学习场景中均表现出优于基线模型的性能,同时将解码吞吐量提升至全注意力模型的6倍 [5][49][56][59] 技术架构创新 - Kimi Delta注意力是Gated DeltaNet的改进版本,引入了通道级变体的细粒度遗忘门,实现对记忆衰减的更精确控制 [4][20] - 该架构采用Diagonal-Plus-Low-Rank矩阵参数化转换动态,使得定制分块并行算法成为可能,计算量相比通用DPLR公式显著减少 [4][24] - 硬件高效的分块算法通过WY表示和UT变换减少非矩阵乘法的FLOPs,将二级分块矩阵计算数量从四次减少到两次,算子效率提升约100% [22][25] 模型性能表现 - 在1.4万亿token预训练中,Kimi Linear在通用知识任务上全面领先:MMLU得分73.8,BBH得分72.9,HellaSwag得分82.9 [44][46] - 长上下文评估显示Kimi Linear在RULER任务得分84.3,RepoQA任务得分68.5,平均得分54.5,显著优于MLA和GDN-H基线 [38][52][53] - 强化学习场景下,Kimi Linear在MATH500和AIME2025等数学测试集上收敛速度更快,训练准确率增长明显高于MLA基线 [56] 效率提升成果 - 模型采用3:1固定比例的混合架构,每3个KDA层与1个全局MLA层交错排列,实现最佳质量-吞吐量权衡 [4][33][43] - 在处理100万token上下文时,Kimi Linear将大型KV缓存需求减少75%,解码吞吐量达到全注意力模型的6倍 [5][59] - 预填充阶段延迟与GDN-H相当,但从128k序列长度开始效率优势明显,在1M上下文长度下解码速度优势急剧扩大 [59] 行业技术路线 - 线性注意力与全注意力的技术路线选择成为行业焦点,月之暗面押注线性注意力而MiniMax青睐全注意力 [15][16] - 研究人员认为线性注意力在处理长上下文时存在基础设施挑战,但相信这些问题将被解决,更多成果即将出现 [14] - 该项目开源了KDA内核并发布两个版本的模型检查点,使用5.7万亿token进行训练,推动下一代解码密集型LLM发展 [9][57]