Agent LLM - 财报，业绩电话会，研报，新闻

Agent LLM

搜索文档

AI产业跟踪：月之暗面发布全新注意力架构：KimiLinear，持续关注AgentLLM技术迭代

长江证券· 2025-11-06 19:05

行业投资评级 - 投资评级：看好，维持 [8] 报告核心观点 - 月之暗面于10月31日发布全新混合线性注意力架构Kimi Linear，旨在解决大语言模型在处理长序列任务时的计算效率和性能瓶颈，其核心代码已开源 [2][5] - Kimi Delta Attention是一种表达能力更强的线性注意力模块，通过精细门控机制和定制优化算法，在提升表达能力的同时实现了卓越的硬件效率 [2][10] - 该架构有望成为下一代Agent LLM的基石技术，通过显著降低长文本推理和多Agent场景下的成本与延迟，加速AI应用大规模落地 [10] - 考虑到成本仍是制约token消耗量的核心因素，Kimi Linear的出现有望开辟降本新范式，报告继续看好国产AI产业链，持续重点推荐铲子股和卡位优势显著的巨头 [2][10] 技术架构分析 - 采用3:1混合层级结构，即3个KDA层加1个全注意力层固定比例堆叠，在此架构下KV缓存减少75%，长序列解码更高效 [10] - 采用无位置编码全注意力策略，MLA层取消显式位置编码，专注于内容关联，由KDA层承担位置感知，避免了RoPE频率固定带来的“长度过拟合”，模型外推能力显著提升 [10] - 可与MoE结合，实验中模型总参数480亿，每次推理仅激活30亿参数，稀疏计算进一步提升训练和推理效率，在不显著增加计算成本的同时扩展模型规模 [10] 性能表现 - 基础能力测试：随着序列长度从256增长至2048，KDA在所有任务中均取得最高准确率，且收敛速度显著快于GDN [10] - 短上下文性能：在几乎所有类别中，Kimi Linear一致性优于MLA和GDN-H；在指令微调阶段的通用任务多个基准上取得最高分，数学与代码任务中在AIME 2025等基准超越GDN和MLA [10] - 长上下文性能：在128K长度下，Kimi Linear平均分54.5，高于MLA的52.2和GDN-H的51.2；在RULER基准得分为84.3，高于MLA的81.3；在RepoQA代码理解任务中得分最高 [10] - 强化学习性能：在数学强化学习任务上收敛速度更快，训练曲线与MLA差距随时间扩大，测试集性能显著领先 [10] 效率优势 - 解码速度：在100万长度序列下，MLA每token需要11.48毫秒，Kimi Linear仅需1.84毫秒，速度快6.3倍 [10] - 预填充速度：在100万长度序列下，Kimi Linear速度是MLA的2.9倍 [10] - 内存占用：Kimi Linear的KV缓存大小仅为纯MLA模型的约25% [10]

Agent LLM

软件与服务

Kimi Linear

Kimi Delta Attention (KDA)

Agent LLM

软件与服务

Kimi Linear

Kimi Delta Attention (KDA)