线性注意力
搜索文档
再谈注意力:阿里、Kimi 都在用的 DeltaNet 和线性注意力新改进丨晚点播客
晚点LatePost· 2025-12-02 17:13
注意力机制演进背景 - 传统全注意力机制计算开销随文本长度呈平方级暴增,是限制模型处理长文档的关键瓶颈[5] - 注意力机制改进的两个主要方向是"稀疏注意力"和"线性注意力"[5] - 阿里巴巴和月之暗面在2024年9月和10月底先后开源Qwen3-Next和Kimi Linear模型,其中的注意力机制都使用了线性注意力DeltaNet和全注意力混合的方式[5] DeltaNet与线性注意力技术核心 - 线性注意力的核心思想是将自注意力中的Softmax函数移除,经过数学等价变换可重写成循环神经网络的递推形式,将复杂度从平方级降至线性[12] - DeltaNet利用Delta Rule来更快地写入和更新权重,基于2021年LSTM作者团队的论文《线性Transformer本质上是快速权重编程器》的思路[13] - 线性注意力默认使用赫布学习进行权重更新,为实现更高效的上下文检索能力可替换为更强大的Delta Rule[14] - DeltaNet在2021年被提出后不火的原因包括缺少关键架构改进和实现不够好,后续通过并行化优化使其能大规模训练[20] - Gated DeltaNet在DeltaNet基础上加衰减,可视为DeltaNet与Mamba 2的结合,保留当代架构思路同时继承更强的Delta Rule更新[21] 行业应用与厂商策略 - 阿里巴巴Qwen3-Next团队对全局注意力、混合滑窗注意力、Mamba 2和Gated DeltaNet做了对比,结果Gated DeltaNet表现最好并被采用[23] - Kimi Linear使用的KDA是Gated DeltaNet的细粒度版,将衰减从粗到细,每个channel有独立的遗忘率用于存储不同时间尺度的信息[24] - 线性注意力与全注意力混合使用的原因是线性注意力提供速度优势但容量小,全注意力提供容量优势但推理速度慢[24] - MiniMax在4560亿参数的MoE M1上使用混合线性注意力与全注意力的Lightning Attention,但在M2中又回归完全注意力,主要因混合架构在多跳推理任务上准确率下降明显[26][27][28] - DeepSeek更相信稀疏注意力,其MLA和DeepSeek-Sparse-Attention都是稀疏注意力的改进[29] 技术对比与未来潜力 - 稀疏注意力通过减少激活的KV Cache读取来加速,单层潜力更强,但当KV Cache大小本身成为瓶颈时则无能为力[30] - 线性注意力有理论缺陷因状态空间固定,但混合架构中75%的层被换成RNN后,KV Cache大小减少3/4,可支持更大批量推理[30] - 在数据受限的后训练和强化学习中,线性注意力因更关注邻近token可能表现更好,因其带有归纳偏见[31][32] - 从电路复杂度看,完全注意力属于TC⁰,而DeltaNet是NC¹-complete架构,更擅长状态追踪,这对Agentic AI至关重要[33] - 架构改进需满足两个scalable关键点:大规模训练下效率要有保证且硬件友好,模型放大后依然有效[35] 未来发展方向 - 稀疏注意力的核心趋势是动态稀疏,难点在于硬件上高效实现,现有block级和token级两条技术路线[46] - 线性注意力未来更值得探索更新规则,考虑DeltaNet外还有哪些更新方式既能更好并行实现又更具表达力[48] - 理想方向是将稀疏注意力和线性注意力结合,用稀疏注意力混线性注意力的组合替代完全注意力层,以降低KV cache规模[49] - 持续学习是重要方向,需解决如何让模型持续吸收外界信息而无需隔段时间重训,具有显著商业价值如个性化服务[50] - 测试时训练或快速权重编程允许处理新token后实时更新权重,可能解决长文本问题和实现持续学习[51]
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位· 2025-10-31 14:27
核心观点 - 月之暗面发布的Kimi Linear架构首次在相同训练条件下超越了全注意力Transformer模型,标志着AI架构可能正告别对传统Transformer的路径依赖,迈向多元创新时代 [1][2][32] 架构创新与核心机制 - Kimi Linear的核心创新是Kimi Delta Attention,通过引入细粒度遗忘门控,使模型能在每个通道维度上独立控制记忆保留,保留重要信息并丢弃冗余信息 [12] - 该机制基于改进的Delta Rule,在数学上保证了稳定性,即使在百万级token序列中梯度也不会爆炸或消失 [13][14] - 模型采用3:1的混合层设计,每3层线性注意力后加1层全注意力,以保留全局语义建模能力并在多数层节省计算资源 [15] - 架构移除了传统的RoPE位置编码,让KDA通过时间衰减核函数自行学习序列位置信息,结果模型更稳定、泛化能力更强 [16][17] 性能提升与效率优势 - 在长上下文任务中,Kimi Linear减少了75%的KV缓存需求,并实现了高达6倍的推理加速 [4][23] - 在1.4T tokens训练规模下,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer [22] - 具体表现为:MMLU得分73.8超越基线的71.6,MMLU-Pro得分51.0超越基线的47.2,BBH得分72.9超越基线的71.6 [23] - 在数学推理与代码生成任务上表现更稳定且得分更高,如GSM8K得分83.9,MATH得分54.7 [23][26] 工程优化与部署便利性 - 采用Diagonal-Plus-Low-Rank结构将注意力矩阵拆分为“对角块+低秩补丁”,使GPU在并行计算时能一次性处理更多内容,吞吐率直接翻倍 [18][19] - 通过分块并行计算和内核融合优化,极大地减少了显存I/O开销 [20] - 工程部署上可无缝对接vLLM推理框架,无需改动模型结构或缓存管理,任何基于Transformer的系统理论上都能一键升级为Kimi Linear [21] 行业趋势与替代架构 - Mamba的作者曾论述Transformer并非最终解法,状态空间模型在长序列建模和高效计算上展现出强大的替代潜力 [28] - 谷歌推出的MoR架构探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理 [29] - 苹果公司在多项研究中倾向采用Mamba而非传统Transformer,因SSM架构更节能、延迟更低、适合终端设备部署 [30] - 尽管新架构不断涌现,刚刚坐上开源模型王座的MiniMax M2却重新用回了全注意力机制,显示技术路线存在多样性 [33]
刚刚,Kimi开源新架构,开始押注线性注意力
机器之心· 2025-10-31 12:11
文章核心观点 - 月之暗面公司提出了一种名为Kimi Linear的新型混合线性注意力架构,该架构在性能上超越传统全注意力方法,并在效率上实现显著提升 [2] - Kimi Linear架构的核心是Kimi Delta注意力,通过细粒度的门控机制优化了有限状态RNN内存的使用,解决了线性注意力表达能力的限制 [4] - 该架构在预训练、监督微调、长上下文任务和强化学习场景中均表现出优于基线模型的性能,同时将解码吞吐量提升至全注意力模型的6倍 [5][49][56][59] 技术架构创新 - Kimi Delta注意力是Gated DeltaNet的改进版本,引入了通道级变体的细粒度遗忘门,实现对记忆衰减的更精确控制 [4][20] - 该架构采用Diagonal-Plus-Low-Rank矩阵参数化转换动态,使得定制分块并行算法成为可能,计算量相比通用DPLR公式显著减少 [4][24] - 硬件高效的分块算法通过WY表示和UT变换减少非矩阵乘法的FLOPs,将二级分块矩阵计算数量从四次减少到两次,算子效率提升约100% [22][25] 模型性能表现 - 在1.4万亿token预训练中,Kimi Linear在通用知识任务上全面领先:MMLU得分73.8,BBH得分72.9,HellaSwag得分82.9 [44][46] - 长上下文评估显示Kimi Linear在RULER任务得分84.3,RepoQA任务得分68.5,平均得分54.5,显著优于MLA和GDN-H基线 [38][52][53] - 强化学习场景下,Kimi Linear在MATH500和AIME2025等数学测试集上收敛速度更快,训练准确率增长明显高于MLA基线 [56] 效率提升成果 - 模型采用3:1固定比例的混合架构,每3个KDA层与1个全局MLA层交错排列,实现最佳质量-吞吐量权衡 [4][33][43] - 在处理100万token上下文时,Kimi Linear将大型KV缓存需求减少75%,解码吞吐量达到全注意力模型的6倍 [5][59] - 预填充阶段延迟与GDN-H相当,但从128k序列长度开始效率优势明显,在1M上下文长度下解码速度优势急剧扩大 [59] 行业技术路线 - 线性注意力与全注意力的技术路线选择成为行业焦点,月之暗面押注线性注意力而MiniMax青睐全注意力 [15][16] - 研究人员认为线性注意力在处理长上下文时存在基础设施挑战,但相信这些问题将被解决,更多成果即将出现 [14] - 该项目开源了KDA内核并发布两个版本的模型检查点,使用5.7万亿token进行训练,推动下一代解码密集型LLM发展 [9][57]
3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索
晚点LatePost· 2025-03-09 20:00
线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索,当时被视为"看起来很美好的泡泡",但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer,但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构,在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性,长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性,涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时,线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向,2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高,未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识,部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发,视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型,预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01,但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题,通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决,测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案,以快速验证效果 [48]