Kimi Linear
搜索文档
再谈注意力:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进丨晚点播客
晚点LatePost· 2025-12-02 17:13
注意力机制演进背景 - 传统全注意力机制计算开销随文本长度呈平方级暴增,是限制模型处理长文档的关键瓶颈[5] - 注意力机制改进的两个主要方向是"稀疏注意力"和"线性注意力"[5] - 阿里巴巴和月之暗面在2024年9月和10月底先后开源Qwen3-Next和Kimi Linear模型,其中的注意力机制都使用了线性注意力DeltaNet和全注意力混合的方式[5] DeltaNet与线性注意力技术核心 - 线性注意力的核心思想是将自注意力中的Softmax函数移除,经过数学等价变换可重写成循环神经网络的递推形式,将复杂度从平方级降至线性[12] - DeltaNet利用Delta Rule来更快地写入和更新权重,基于2021年LSTM作者团队的论文《线性Transformer本质上是快速权重编程器》的思路[13] - 线性注意力默认使用赫布学习进行权重更新,为实现更高效的上下文检索能力可替换为更强大的Delta Rule[14] - DeltaNet在2021年被提出后不火的原因包括缺少关键架构改进和实现不够好,后续通过并行化优化使其能大规模训练[20] - Gated DeltaNet在DeltaNet基础上加衰减,可视为DeltaNet与Mamba 2的结合,保留当代架构思路同时继承更强的Delta Rule更新[21] 行业应用与厂商策略 - 阿里巴巴Qwen3-Next团队对全局注意力、混合滑窗注意力、Mamba 2和Gated DeltaNet做了对比,结果Gated DeltaNet表现最好并被采用[23] - Kimi Linear使用的KDA是Gated DeltaNet的细粒度版,将衰减从粗到细,每个channel有独立的遗忘率用于存储不同时间尺度的信息[24] - 线性注意力与全注意力混合使用的原因是线性注意力提供速度优势但容量小,全注意力提供容量优势但推理速度慢[24] - MiniMax在4560亿参数的MoE M1上使用混合线性注意力与全注意力的Lightning Attention,但在M2中又回归完全注意力,主要因混合架构在多跳推理任务上准确率下降明显[26][27][28] - DeepSeek更相信稀疏注意力,其MLA和DeepSeek-Sparse-Attention都是稀疏注意力的改进[29] 技术对比与未来潜力 - 稀疏注意力通过减少激活的KV Cache读取来加速,单层潜力更强,但当KV Cache大小本身成为瓶颈时则无能为力[30] - 线性注意力有理论缺陷因状态空间固定,但混合架构中75%的层被换成RNN后,KV Cache大小减少3/4,可支持更大批量推理[30] - 在数据受限的后训练和强化学习中,线性注意力因更关注邻近token可能表现更好,因其带有归纳偏见[31][32] - 从电路复杂度看,完全注意力属于TC⁰,而DeltaNet是NC¹-complete架构,更擅长状态追踪,这对Agentic AI至关重要[33] - 架构改进需满足两个scalable关键点:大规模训练下效率要有保证且硬件友好,模型放大后依然有效[35] 未来发展方向 - 稀疏注意力的核心趋势是动态稀疏,难点在于硬件上高效实现,现有block级和token级两条技术路线[46] - 线性注意力未来更值得探索更新规则,考虑DeltaNet外还有哪些更新方式既能更好并行实现又更具表达力[48] - 理想方向是将稀疏注意力和线性注意力结合,用稀疏注意力混线性注意力的组合替代完全注意力层,以降低KV cache规模[49] - 持续学习是重要方向,需解决如何让模型持续吸收外界信息而无需隔段时间重训,具有显著商业价值如个性化服务[50] - 测试时训练或快速权重编程允许处理新token后实时更新权重,可能解决长文本问题和实现持续学习[51]
Which Attention is All You Need?
机器之心· 2025-11-09 09:30
注意力机制优化背景 - 当前大语言模型发展面临数据和算力扩展瓶颈 使得算法创新变得尤为重要[7] - Transformer架构的前馈神经网络模块已被混合专家模型成功优化 业界创新压力与投入因此集中于注意力机制[5][7] - 专家观点认为 注意力机制有望成为继混合专家模型之后AI架构的下一个重大突破方向[7] 注意力机制面临的挑战 - 标准自注意力机制的计算复杂度随序列长度呈O(N^2)增长 成为高效长序列建模的根本障碍[9] - 二次方复杂度导致长序列预填充阶段计算量巨大 解码阶段的关键值缓存占用大量内存带宽 构成推理瓶颈[9] 主流优化路径:线性注意力 - 线性注意力目标是通过重新参数化或近似softmax注意力为线性操作 将计算复杂度从O(N^2)降至O(N)[8][10] - 其设计思路主要分为三类:基于核函数的方法 带遗忘机制的方法 以及作为上下文学习器的方法[10] - 月之暗面团队提出的Kimi线性注意力采用门控Delta注意力核心 通过通道感知门控机制让每个通道学习独立遗忘速率[11] - Kimi线性注意力采用分层混合架构 每三层线性层后插入一个标准全注意力层 比例为3:1[12] - 测试显示Kimi线性注意力最多可减少75%的大型关键值缓存需求 在处理100万token上下文时速度是全注意力的6倍[13] 主流优化路径:稀疏注意力 - 稀疏注意力不试图近似整个注意力矩阵 而是将计算限制在完整键空间的一个子集上 仅计算被选中的token交互[8][14] - 主要方法包括固定模式 块稀疏和基于聚类的稀疏注意力[14] - DeepSeek团队从块粒度的原生稀疏注意力演进到token粒度的DeepSeek稀疏注意力[15][17] - DeepSeek稀疏注意力通过轻量级Lightning Indexer进行O(N)扫描 为每个token计算重要性代理分数 并对得分最高的k个token执行全注意力计算[17] - 在H800 GPU集群测试中 该方案在128k长上下文条件下将主模型注意力复杂度从O(L^2)降为O(Lk) 单位token计算成本最高下降60%-70%[17] 其他优化方案 - 除线性和稀疏路径外 也存在混合扩展方案[8] - MiniMax团队出于工程理性考量 在M2工作中选择重新拥抱全局注意力 尝试通过工程优化使O(N^2)复杂度在特定场景下能被高效利用[8]
AI产业跟踪:月之暗面发布全新注意力架构:KimiLinear,持续关注AgentLLM技术迭代
长江证券· 2025-11-06 19:05
行业投资评级 - 投资评级:看好,维持 [8] 报告核心观点 - 月之暗面于10月31日发布全新混合线性注意力架构Kimi Linear,旨在解决大语言模型在处理长序列任务时的计算效率和性能瓶颈,其核心代码已开源 [2][5] - Kimi Delta Attention是一种表达能力更强的线性注意力模块,通过精细门控机制和定制优化算法,在提升表达能力的同时实现了卓越的硬件效率 [2][10] - 该架构有望成为下一代Agent LLM的基石技术,通过显著降低长文本推理和多Agent场景下的成本与延迟,加速AI应用大规模落地 [10] - 考虑到成本仍是制约token消耗量的核心因素,Kimi Linear的出现有望开辟降本新范式,报告继续看好国产AI产业链,持续重点推荐铲子股和卡位优势显著的巨头 [2][10] 技术架构分析 - 采用3:1混合层级结构,即3个KDA层加1个全注意力层固定比例堆叠,在此架构下KV缓存减少75%,长序列解码更高效 [10] - 采用无位置编码全注意力策略,MLA层取消显式位置编码,专注于内容关联,由KDA层承担位置感知,避免了RoPE频率固定带来的“长度过拟合”,模型外推能力显著提升 [10] - 可与MoE结合,实验中模型总参数480亿,每次推理仅激活30亿参数,稀疏计算进一步提升训练和推理效率,在不显著增加计算成本的同时扩展模型规模 [10] 性能表现 - 基础能力测试:随着序列长度从256增长至2048,KDA在所有任务中均取得最高准确率,且收敛速度显著快于GDN [10] - 短上下文性能:在几乎所有类别中,Kimi Linear一致性优于MLA和GDN-H;在指令微调阶段的通用任务多个基准上取得最高分,数学与代码任务中在AIME 2025等基准超越GDN和MLA [10] - 长上下文性能:在128K长度下,Kimi Linear平均分54.5,高于MLA的52.2和GDN-H的51.2;在RULER基准得分为84.3,高于MLA的81.3;在RepoQA代码理解任务中得分最高 [10] - 强化学习性能:在数学强化学习任务上收敛速度更快,训练曲线与MLA差距随时间扩大,测试集性能显著领先 [10] 效率优势 - 解码速度:在100万长度序列下,MLA每token需要11.48毫秒,Kimi Linear仅需1.84毫秒,速度快6.3倍 [10] - 预填充速度:在100万长度序列下,Kimi Linear速度是MLA的2.9倍 [10] - 内存占用:Kimi Linear的KV缓存大小仅为纯MLA模型的约25% [10]
Kimi Linear一作张宇:关于模型训练的一些感想
自动驾驶之心· 2025-11-06 08:04
模型架构创新 - 模型采用混合专家架构 将MoE稀疏度从8提升至32 显著增强模型容量[4] - 核心设计原则为线性注意力 具体实现为KDA方法 在GDN基础上融入GLA的细粒度门控[4] - 采用混合模型方案 KDA与MLA的层混合比例为3:1 该比例经消融实验证实为效率与性能最优解[5] - 循环公式中关键部分为Decay机制 通过数学表达式实现状态更新[4] 性能表现 - 在5.7T训练token和3B激活参数条件下 模型效果实现巨大提升 多项基准测试呈现显著优势[7] - 解码方面因KDA的KV缓存占用小 批量大小补偿后加速比达到6倍[8] - 在数学/代码类基准测试上受参数规模限制 但模型个性表现突出 具有小K2模型特质[8] - 实际使用体验与榜单成绩达成平衡 避免为追求分数牺牲用户体验[13] 训练过程 - 模型规模达48B MoE 训练量5.7T 采用分阶段扩展策略 从1B参数开始逐步验证性能[10][11] - 训练过程中发现关键参数需保持fp32精度 中途切换精度可能影响训练效果[12] - 后训练方案经过数十种数据配方尝试 最终形成成熟方案[13] - 采用严格的内科监控机制 任何明显性能差异都会触发回退至上一阶段[11] 技术路线定位 - 本次技术报告定位为技术验证 主要战场放在1T公平比较实验 为下一代K3模型铺垫[14] - 线性注意力技术路线逐渐收敛至Delta变体 同时稀疏注意力路线如NSA也受到关注[18] - 模型开源旨在推动混合模型实际落地 为行业提供新的技术启发[19] - 当前时间窗口适合线性注意力发展 因智能体应用需要32k+长上下文支持[17]
Kimi开源新线性注意力架构,人工智能AIETF(515070)持仓股三六零盘中涨超7%
每日经济新闻· 2025-11-03 10:54
市场表现 - A股三大指数低开且跌幅扩大,创业板指跌幅扩大至1% [1] - 人工智能AIETF(515070)下跌1.53% [1] - 其持仓股表现分化,三七互娱涨停,三六零盘中上涨7.1%,而石头科技下跌5.2%,澜起科技下跌4.98%,恒玄科技下跌3.77%,浪潮信息下跌3.51% [1] 行业板块动态 - 海南、游戏、光热发电、影视院线等板块涨幅居前 [1] - 贵金属、芬太尼、电池等板块跌幅居前 [1] AI技术进展 - 月之暗面开源混合线性注意力架构Kimi Linear,其核心创新为"Kimi Delta Attention",是对Gated DeltaNet的优化升级 [1] - 该架构在短上下文、长上下文、强化学习扩展机制等各种场景中超越了Transformer架构的全注意力机制 [1] - 在处理1M token场景下,Kimi Linear的KV cache占用量减少75%,解码吞吐量最高提升6倍,TPOT训练速度相较于传统MLA实现6.3倍加速 [1] AI行业发展趋势 - AI大模型发展重心正从参数规模竞赛转向追求更高的"能力密度"和更优的架构效率 [2] - 未来竞争力将更取决于如何在更小参数规模下实现更强性能,受脑科学启发的算法创新以及多模态与推理能力的深度融合成为关键 [2] - 这一转变有望降低算力门槛,使广大中小企业能以更低成本接入AI技术,从而催生更广泛的产业应用和投资机会 [2] AIETF产品信息 - 人工智能AIETF(515070)跟踪CS人工智能主题指数(930713),成分股选取为人工智能提供技术、基础资源以及应用端的个股 [2] - 该ETF聚集人工智能产业链上中游,前十大权重股包括中际旭创、新易盛、寒武纪-U、中科曙光、科大讯飞等国内科技龙头 [2]
腾讯研究院AI速递 20251103
腾讯研究院· 2025-11-03 00:06
AI驱动的代码安全与漏洞修复 - OpenAI发布由GPT-5驱动的白帽智能体Aardvark 能自动发现并修复代码库安全漏洞 已识别92%的已知与人工注入漏洞 [1] - Aardvark工作流程运用LLM推理能力 包括威胁建模、提交扫描、沙盒验证和Codex修复 不依赖传统程序分析技术 [1] - 谷歌、Anthropic、微软等科技巨头在10月密集发布类似白帽智能体 以应对AI时代漏洞数量激增和攻击手段智能化的挑战 [1] 中国开源AI模型的商业化应用 - AI编程应用Cursor和Windsurf新发布的Composer-1和SWE-1.5模型被发现可能基于中国模型 [2] - Cursor Composer-1使用与DeepSeek相同的分词器 Windsurf被证实基于智谱开发的GLM模型 [2] - 中国开源模型在性能榜单占据TOP5甚至TOP10 物美价廉成为初创公司的理性选择 [2] 大模型注意力架构的技术演进 - 线性注意力机制正在回归 MiniMax-M1、Qwen3-Next、DeepSeek V3.2等国产模型引领采用线性或亚二次方注意力变体 [3] - MiniMax新模型M2放弃线性注意力回归常规注意力 团队解释线性注意力在推理和多轮对话任务中存在明显精度问题 [3] - Kimi Linear提出混合注意力策略 每三个线性注意力块搭配一个全注意力块 实现75%KV缓存缩减和最高6倍解码吞吐量提升 [3] Canva的AI战略与市场定位 - 估值420亿美元的Canva推出自训练基础模型 能输出带可编辑图层的完整设计文件 并将收购的Affinity永久免费开放 [4] - 核心功能Ask @Canva深度嵌入设计界面每个角落 用户可用自然语言修改任何元素 AI还能对整个设计提出改进建议 [4] - Canva年化收入约30亿美元且持续盈利 月活超2.4亿 市场预期将在2026年正式IPO 直接对标Adobe的70%市场份额 [4] Neuralink的脑机接口商业化进展 - 马斯克表示首位Neuralink接受者Noland Arbaugh可能首个接受升级或植入双芯片 预言Neuralink接受者最终能在游戏中击败所有人 [5] - Neuralink已有12名用户累计使用超2000天总活跃时间超1.5万小时 首批3位试验者研究成果已提交《新英格兰医学杂志》 [5] - 公司启动新临床试验"思维转文字" 目标到2031年实现每年植入2万人 年营收突破10亿美元 2030年开始应用于健康个体 [5] 大模型在医疗健康领域的应用潜力 - 斯坦福大学等研究团队测试15种主流模型对言语障碍识别 目前表现最佳模型准确率仅55%未达FDA要求的80-85%临床标准 [6] - 研究发现模型存在性别、年龄和语言偏见 对男性语音识别优于女性 英语使用者优于其他语言 年长儿童优于幼龄儿童 [6] - 微调技术带来突破口 利用小型儿童语音数据集微调后模型性能准确率提升10% 展现多模态语言模型在言语病理学应用潜力 [6] 企业级AI工作流重构与组织变革 - 估值123亿美元的Brex将内部AI平台当产品打造 基于Retool构建并复用外部产品AI能力 由25人系统工程团队维护运营 [7] - COO重构运营团队工作流 L1工作全交给AI L2从管理人变为管理Agents L3从解决问题变为设计系统 预测运营效率可提升5到10倍 [7] - 招聘策略从青睐"专才"转向"通才" 面试中询问AI使用习惯、要求提交AI案例研究、给出真实业务挑战评估AI应用能力 [7] OpenAI与微软的战略合作深化 - OpenAI完成重组 非营利基金会持有价值1300亿美元股份成全球最大慈善基金之一 首批投入250亿美元用于医疗健康和AI安全 [8] - 新协议明确OpenAI当前及未来AGI模型API将在7年内独家部署Azure 微软持有OpenAI约32.5%股份价值约1350亿美元 [8] - 双方签下2500亿美元Azure预购合同 微软上季度资本开支高达349亿美元较前一季度猛增40% 主要投向新建数据中心和采购AI芯片 [8] OpenAI内部治理与领导层变动 - Ilya Sutskever在马斯克起诉OpenAI案中作证近10小时 [9] - Ilya提交52页备忘录详细记录Altman"问题行为" 指控其欺骗董事会、挑拨离间、制造混乱和纵容Anthropic成长 [9] - 解雇Altman后董事会曾严肃探讨与Anthropic合并可能性 拟让Dario Amodei担任CEO 但因实际操作障碍和700名员工兵变而流产 [10]
刚刚,Kimi开源新架构,开始押注线性注意力
机器之心· 2025-10-31 12:11
文章核心观点 - 月之暗面公司提出了一种名为Kimi Linear的新型混合线性注意力架构,该架构在性能上超越传统全注意力方法,并在效率上实现显著提升 [2] - Kimi Linear架构的核心是Kimi Delta注意力,通过细粒度的门控机制优化了有限状态RNN内存的使用,解决了线性注意力表达能力的限制 [4] - 该架构在预训练、监督微调、长上下文任务和强化学习场景中均表现出优于基线模型的性能,同时将解码吞吐量提升至全注意力模型的6倍 [5][49][56][59] 技术架构创新 - Kimi Delta注意力是Gated DeltaNet的改进版本,引入了通道级变体的细粒度遗忘门,实现对记忆衰减的更精确控制 [4][20] - 该架构采用Diagonal-Plus-Low-Rank矩阵参数化转换动态,使得定制分块并行算法成为可能,计算量相比通用DPLR公式显著减少 [4][24] - 硬件高效的分块算法通过WY表示和UT变换减少非矩阵乘法的FLOPs,将二级分块矩阵计算数量从四次减少到两次,算子效率提升约100% [22][25] 模型性能表现 - 在1.4万亿token预训练中,Kimi Linear在通用知识任务上全面领先:MMLU得分73.8,BBH得分72.9,HellaSwag得分82.9 [44][46] - 长上下文评估显示Kimi Linear在RULER任务得分84.3,RepoQA任务得分68.5,平均得分54.5,显著优于MLA和GDN-H基线 [38][52][53] - 强化学习场景下,Kimi Linear在MATH500和AIME2025等数学测试集上收敛速度更快,训练准确率增长明显高于MLA基线 [56] 效率提升成果 - 模型采用3:1固定比例的混合架构,每3个KDA层与1个全局MLA层交错排列,实现最佳质量-吞吐量权衡 [4][33][43] - 在处理100万token上下文时,Kimi Linear将大型KV缓存需求减少75%,解码吞吐量达到全注意力模型的6倍 [5][59] - 预填充阶段延迟与GDN-H相当,但从128k序列长度开始效率优势明显,在1M上下文长度下解码速度优势急剧扩大 [59] 行业技术路线 - 线性注意力与全注意力的技术路线选择成为行业焦点,月之暗面押注线性注意力而MiniMax青睐全注意力 [15][16] - 研究人员认为线性注意力在处理长上下文时存在基础设施挑战,但相信这些问题将被解决,更多成果即将出现 [14] - 该项目开源了KDA内核并发布两个版本的模型检查点,使用5.7万亿token进行训练,推动下一代解码密集型LLM发展 [9][57]