杨植麟回复：Kimi K2训练用的H800！但“只花了460万美元”嘛…

文章核心观点 - Kimi K2 Thinking模型以显著低于行业水平的训练成本（传闻约460万美元）实现了卓越性能，其开源策略和工程创新正在引发硅谷开发者和企业从闭源模型向该模型的迁移潮 [1][5][13][14] 训练成本与行业影响 - 传闻Kimi K2 Thinking训练成本约为460万美元，低于DeepSeek V3的约560万美元，但公司澄清此非官方数据，并指出训练成本因包含大量研究和实验而难以精确计算 [1][13] - 低成本高性能的开源模型引发市场对闭源巨头高估值的反思，并可能推动对月之暗面公司的价值重估 [14][15] 技术架构与工程创新 - 模型架构继承并优化了DeepSeek等开源成果，将MoE层专家数量从256个增至384个以扩大知识容量，同时将每次推理激活参数量从约370亿降至320亿以降低推理成本 [16] - 词汇表从129K扩大至160K，并减少了MoE前的密集前馈网络块，进一步优化计算效率 [16] - 采用自研MuonClip优化器，在15.5万亿token的训练过程中实现了零训练崩溃，无需人为干预重启 [18] - 采用量化感知训练方案，实现原生INT4精度推理，在提升推理速度约2倍的同时将性能损失降至最低 [21] 市场反响与性能表现 - 硅谷投资人Chamath Palihapitiya将其新公司AI负载迁移至Kimi K2，原因是其性能更强且价格便宜得多 [6] - 云端开发平台Vercel CEO内部测试显示，Kimi K2比闭源模型快5倍，准确率高50% [8] - Claude Code用户相互传授将模型切换为Kimi K2的设置方法 [9] 公司未来规划与产品路线 - 下一代K3模型可能采用实验性混合注意力机制KDA，在同等条件下性能优于采用RoPE的模型，且速度更快、效率更高 [24] - 将很快推出类似Claude Code的Kimi Code产品，视觉语言模型正在开发中 [27] - 承认K2 Thinking思考过程过长、效率较低，下一版会将简化思考过程写入奖励函数 [27] - 曾尝试1M上下文窗口但因服务成本过高而搁置，未来会重新考虑更长的上下文窗口 [27]