Kimi Delta Attention (KDA)
搜索文档
刚刚,Kimi开源新架构,开始押注线性注意力
机器之心· 2025-10-31 12:11
机器之心报道 编辑:张倩、+0 Kimi 押注线性注意力,MiniMax 青睐全注意力,究竟哪条路能走得更远? 在智能体时代,推理的计算需求正成为一个核心瓶颈,尤其是在长时程和强化学习场景中。此时,标准注意力机制中存在的低效问题变得更加突出。 线性注意力为降低计算复杂度提供了一种有前景的方法,但由于表达能力有限,它在语言建模方面的表现历来不如 softmax 注意力,即使对于短序列也是 如此。 最近的进展显著缩小了这一差距,主要得益于两项创新:门控或衰减机制以及 delta 规则。这些进展共同推动线性注意力在中等长度序列上的性能接近 softmax 水平。尽管如此,纯粹的线性结构从根本上仍受限于有限状态容量,这使得长序列建模和上下文内检索在理论上仍具有挑战性。 因此,结合 softmax 注意力和线性注意力的混合架构成为在质量和效率之间的一种折衷方案。但之前的混合模型往往规模较小,缺乏多样化基准评估。关 键挑战是开发出一种新的注意力架构,能够在速度和内存上显著提高效率,同时保证或超过全注意力的质量,推动下一代解码密集型 LLM 的发展。 最近,月之暗面在这一方向有所突破。在一篇新的技术报告中,他们提出了一种新 ...