Workflow
线性注意力
icon
搜索文档
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位· 2025-10-31 14:27
闻乐 发自 凹非寺 量子位 | 公众号 QbitAI Transformer的时代,正在被改写。 月之暗面最新发布的开源 Kimi Linear 架构,用一种全新的注意力机制,在相同训练条件下 首次超越了全注意力模型 。 在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。 不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。 让注意力真正线性化 Transformer确实聪明,但聪明得有点太烧钱。 它的注意力机制是全连接的,每个token都要和其他所有token打交道。 计算量也随着输入长度呈平方增长 (O(N²)) ,而且每生成一个新词,还要查一遍之前的所有缓存。 这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。 模型越强,显卡越崩,钱包越痛。 所以,过去几年无数团队都在研究 线性注意力 ,希望把计算从 O(N²) 降到 O(N),让模型能又快又省。 但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。 现在,Kimi Linear以既要又要还要的姿态登场了。 有网友表示期待:这个架构 ...
刚刚,Kimi开源新架构,开始押注线性注意力
机器之心· 2025-10-31 12:11
机器之心报道 编辑:张倩、+0 Kimi 押注线性注意力,MiniMax 青睐全注意力,究竟哪条路能走得更远? 在智能体时代,推理的计算需求正成为一个核心瓶颈,尤其是在长时程和强化学习场景中。此时,标准注意力机制中存在的低效问题变得更加突出。 线性注意力为降低计算复杂度提供了一种有前景的方法,但由于表达能力有限,它在语言建模方面的表现历来不如 softmax 注意力,即使对于短序列也是 如此。 最近的进展显著缩小了这一差距,主要得益于两项创新:门控或衰减机制以及 delta 规则。这些进展共同推动线性注意力在中等长度序列上的性能接近 softmax 水平。尽管如此,纯粹的线性结构从根本上仍受限于有限状态容量,这使得长序列建模和上下文内检索在理论上仍具有挑战性。 因此,结合 softmax 注意力和线性注意力的混合架构成为在质量和效率之间的一种折衷方案。但之前的混合模型往往规模较小,缺乏多样化基准评估。关 键挑战是开发出一种新的注意力架构,能够在速度和内存上显著提高效率,同时保证或超过全注意力的质量,推动下一代解码密集型 LLM 的发展。 最近,月之暗面在这一方向有所突破。在一篇新的技术报告中,他们提出了一种新 ...
3700 次预训练寻找 “线性注意力” 非共识,MiniMax-01 开发者讲述 4 年探索
晚点LatePost· 2025-03-09 20:00
线性注意力机制的发展历程 - 线性注意力机制从2021年开始探索,当时被视为"看起来很美好的泡泡",但公司团队坚持投入研发 [5][21] - 2023年底验证了15B规模的纯线性方案效果接近Transformer,但发现召回能力存在缺陷 [35] - 最终采用7层线性注意力混合1层Softmax注意力的架构,在4560亿参数模型上实现应用 [36][37] 技术优势与验证过程 - 线性注意力理论计算复杂度从二次降为线性,长序列处理速度比Full Attention快2700倍 [11][44] - 通过3700次预训练测试验证技术可行性,涵盖不同参数规模和架构方案 [41][42] - 在7B参数以上模型规模时,线性注意力优势开始明显显现 [16][17] 行业竞争格局 - 线性注意力与稀疏注意力是当前两大改进方向,2023年后线性方向热度上升 [17] - 公司认为线性架构上限更高,未来在长文本赛道具备优势 [50][51] - 目前行业对线性注意力仍存在非共识,部分认为其属于有损优化 [52][53] 产品化与战略布局 - 公司将80%研发资源投入线性架构模型开发,视为重大战略转型 [31][48] - 下一代计划推出深度推理原生多模态模型,预计4-5月发布 [58][60] - 开源4560亿参数模型MiniMax-01,但未提供小尺寸版本 [57] 技术挑战与解决方案 - 线性注意力存在GPU并行化难题,通过Lightning Attention提升实际运行效率 [22] - 召回能力缺陷通过混合架构解决,测试不同比例后选择1:7方案 [36][38] - 多模态实现采用adapter形式而非原生方案,以快速验证效果 [48]