Kimi Linear架构
搜索文档
罕见,月之暗面杨植麟、周昕宇、吴育昕回应一切:打假460万美元、调侃OpenAI
36氪· 2025-11-11 12:25
公司技术进展与产品规划 - Kimi K2 Thinking模型当前版本优先考虑绝对性能而非token效率,推理时间较长的问题将在后续优化 [3] - 公司正在研究K2的视觉-语言版本,因获得正确的视觉-语言数据和训练需要时间,故先发布纯文本模型 [1][4] - 公司开源了混合线性注意力架构Kimi Linear,其KDA模块在预训练和强化学习阶段均优于采用RoPE的完整MLA,且更快、更经济,很可能以某种形式出现在K3中 [1][5] - 公司在模型中采用了未经其他厂商测试的优化器Muon,并已通过所有扩展测试,对研究成果充满信心 [7] - 公司未来将增加模型上下文长度,此前已尝试过100万个token的上下文窗口,但因服务成本过高未推广,未来会重新考虑 [11] - 公司已发布小型模型Kimi-Linear-48B-A3B-Instruct,未来可能训练更多模型并添加功能 [11] 产品性能与市场反馈 - Kimi K2 Thinking在HLE基准测试中得分较高,但在实际应用中的通用能力仍需提升,公司正努力改善以充分发挥智能作用 [4] - 模型采用INT4原生设计提升推理速度,其Turbo API会更快,推理token数量取决于模型训练方式 [4] - 模型独特的直接文风是后训练数据和评估的重要组成部分,获得用户认可 [5] - 有用户反馈Kimi已成为主要测试模型,但生产环境会切换到美国本土模型,部分企业因地缘风险担忧限制使用 [8][9] - 公司提供基于API请求次数的编程订阅方案,用户反映资源消耗偏高,公司承诺尽快找到更好方案 [12] 公司战略与行业互动 - 公司强调拥抱开源,认为对AGI的追求应带来团结而非分裂,开放安全对齐技术栈有助于微调开源模型时保持安全性 [2] - 公司暂无开发AI浏览器计划,认为做出更好模型无需套用新的Chromium壳,将专注于模型训练并更新kimi.com集成最新功能 [2][11] - 公司以开源作为消除企业部署顾虑的途径,希望建立更加信任的环境 [9] - 公司联合创始人调侃OpenAI,提及“Sam价值万亿美元的数据中心”及OpenAI烧钱问题,强调自有方式和节奏 [2] - 公司通过RedditAMA活动直面全球开发者尖锐提问,显示中国AI创新能力获得国际认可 [13]
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
量子位· 2025-10-31 14:27
核心观点 - 月之暗面发布的Kimi Linear架构首次在相同训练条件下超越了全注意力Transformer模型,标志着AI架构可能正告别对传统Transformer的路径依赖,迈向多元创新时代 [1][2][32] 架构创新与核心机制 - Kimi Linear的核心创新是Kimi Delta Attention,通过引入细粒度遗忘门控,使模型能在每个通道维度上独立控制记忆保留,保留重要信息并丢弃冗余信息 [12] - 该机制基于改进的Delta Rule,在数学上保证了稳定性,即使在百万级token序列中梯度也不会爆炸或消失 [13][14] - 模型采用3:1的混合层设计,每3层线性注意力后加1层全注意力,以保留全局语义建模能力并在多数层节省计算资源 [15] - 架构移除了传统的RoPE位置编码,让KDA通过时间衰减核函数自行学习序列位置信息,结果模型更稳定、泛化能力更强 [16][17] 性能提升与效率优势 - 在长上下文任务中,Kimi Linear减少了75%的KV缓存需求,并实现了高达6倍的推理加速 [4][23] - 在1.4T tokens训练规模下,Kimi Linear在MMLU、BBH、RULER、GPQA-Diamond等多个基准测试上全面超越Transformer [22] - 具体表现为:MMLU得分73.8超越基线的71.6,MMLU-Pro得分51.0超越基线的47.2,BBH得分72.9超越基线的71.6 [23] - 在数学推理与代码生成任务上表现更稳定且得分更高,如GSM8K得分83.9,MATH得分54.7 [23][26] 工程优化与部署便利性 - 采用Diagonal-Plus-Low-Rank结构将注意力矩阵拆分为“对角块+低秩补丁”,使GPU在并行计算时能一次性处理更多内容,吞吐率直接翻倍 [18][19] - 通过分块并行计算和内核融合优化,极大地减少了显存I/O开销 [20] - 工程部署上可无缝对接vLLM推理框架,无需改动模型结构或缓存管理,任何基于Transformer的系统理论上都能一键升级为Kimi Linear [21] 行业趋势与替代架构 - Mamba的作者曾论述Transformer并非最终解法,状态空间模型在长序列建模和高效计算上展现出强大的替代潜力 [28] - 谷歌推出的MoR架构探索用递归结构取代部分注意力,通过动态计算深度来减少冗余推理 [29] - 苹果公司在多项研究中倾向采用Mamba而非传统Transformer,因SSM架构更节能、延迟更低、适合终端设备部署 [30] - 尽管新架构不断涌现,刚刚坐上开源模型王座的MiniMax M2却重新用回了全注意力机制,显示技术路线存在多样性 [33]