Workflow
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位·2025-10-31 14:27

闻乐 发自 凹非寺 量子位 | 公众号 QbitAI Transformer的时代,正在被改写。 月之暗面最新发布的开源 Kimi Linear 架构,用一种全新的注意力机制,在相同训练条件下 首次超越了全注意力模型 。 在长上下文任务中,它不仅减少了75%的KV缓存需求,还实现了高达6倍的推理加速。 不过,咱还是先来看一下Kimi Linear是如何挑战传统Transformer的。 让注意力真正线性化 Transformer确实聪明,但聪明得有点太烧钱。 它的注意力机制是全连接的,每个token都要和其他所有token打交道。 计算量也随着输入长度呈平方增长 (O(N²)) ,而且每生成一个新词,还要查一遍之前的所有缓存。 这就导致推理阶段的KV Cache占显存极大,尤其是在128K以上的上下文中,显卡直接崩溃警告。 模型越强,显卡越崩,钱包越痛。 所以,过去几年无数团队都在研究 线性注意力 ,希望把计算从 O(N²) 降到 O(N),让模型能又快又省。 但问题是,以前的线性注意力都记不住东西,快是快了,but智商打折。 现在,Kimi Linear以既要又要还要的姿态登场了。 有网友表示期待:这个架构 ...