Agent LLM
搜索文档
AI产业跟踪:月之暗面发布全新注意力架构:KimiLinear,持续关注AgentLLM技术迭代
长江证券· 2025-11-06 19:05
行业投资评级 - 投资评级:看好,维持 [8] 报告核心观点 - 月之暗面于10月31日发布全新混合线性注意力架构Kimi Linear,旨在解决大语言模型在处理长序列任务时的计算效率和性能瓶颈,其核心代码已开源 [2][5] - Kimi Delta Attention是一种表达能力更强的线性注意力模块,通过精细门控机制和定制优化算法,在提升表达能力的同时实现了卓越的硬件效率 [2][10] - 该架构有望成为下一代Agent LLM的基石技术,通过显著降低长文本推理和多Agent场景下的成本与延迟,加速AI应用大规模落地 [10] - 考虑到成本仍是制约token消耗量的核心因素,Kimi Linear的出现有望开辟降本新范式,报告继续看好国产AI产业链,持续重点推荐铲子股和卡位优势显著的巨头 [2][10] 技术架构分析 - 采用3:1混合层级结构,即3个KDA层加1个全注意力层固定比例堆叠,在此架构下KV缓存减少75%,长序列解码更高效 [10] - 采用无位置编码全注意力策略,MLA层取消显式位置编码,专注于内容关联,由KDA层承担位置感知,避免了RoPE频率固定带来的“长度过拟合”,模型外推能力显著提升 [10] - 可与MoE结合,实验中模型总参数480亿,每次推理仅激活30亿参数,稀疏计算进一步提升训练和推理效率,在不显著增加计算成本的同时扩展模型规模 [10] 性能表现 - 基础能力测试:随着序列长度从256增长至2048,KDA在所有任务中均取得最高准确率,且收敛速度显著快于GDN [10] - 短上下文性能:在几乎所有类别中,Kimi Linear一致性优于MLA和GDN-H;在指令微调阶段的通用任务多个基准上取得最高分,数学与代码任务中在AIME 2025等基准超越GDN和MLA [10] - 长上下文性能:在128K长度下,Kimi Linear平均分54.5,高于MLA的52.2和GDN-H的51.2;在RULER基准得分为84.3,高于MLA的81.3;在RepoQA代码理解任务中得分最高 [10] - 强化学习性能:在数学强化学习任务上收敛速度更快,训练曲线与MLA差距随时间扩大,测试集性能显著领先 [10] 效率优势 - 解码速度:在100万长度序列下,MLA每token需要11.48毫秒,Kimi Linear仅需1.84毫秒,速度快6.3倍 [10] - 预填充速度:在100万长度序列下,Kimi Linear速度是MLA的2.9倍 [10] - 内存占用:Kimi Linear的KV缓存大小仅为纯MLA模型的约25% [10]