Kimi K3 - 财报，业绩电话会，研报，新闻

Kimi K3

搜索文档

量子位· 2026-02-03 08:37

开源模型市场表现 - Kimi K2.5在开源社区平台Hugging Face上成为趋势榜首，下载量超过5.3万次 [2] 模型核心能力与性能 - Kimi K2.5主打智能体（Agent）能力，在HLE-Full、BrowseComp等测试集中，其表现超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗舰闭源模型 [3] - 在BrowseComp测试中达到比GPT-5.2更高的表现，而资金消耗仅有不到5%，显示出极高的性价比 [9] 技术架构与训练方法 - 模型采用原生多模态技术路线，使用同一套参数空间直接处理视觉信号与文本逻辑 [7] - 在K2架构基础上，投入了15万亿（15T）的视觉与文本混合Token进行持续预训练 [6] - 在15T的庞大数据量级下，模型的视觉理解与文本推理能力实现了同步增强 [8] 视觉编程与自动化调试 - 基于原生多模态底座，K2.5解锁了“视觉编程”能力，能够从视频流直接逆向推导代码 [11] - 模型能够从包含复杂特效的网页演示视频中，捕捉视觉元素随时间变化的规律，并直接映射为可执行的前端代码，实现从设计演示到代码实现的无损转化 [12] - 模型集成了自主视觉调试机制，在代码生成并渲染界面后，会调用视觉感知能力对实际运行页面进行验收，发现问题后自动触发文档查询工具进行定位和修正，形成“生成-观察-查阅-修复”的自动化闭环 [14][15][16] 智能体集群系统 - Kimi K2.5搭载了Agent Swarm架构，能够自主构建并编排多达100个子智能体，并支持调用1500个工具的并行工作流 [17] - 该系统将复杂任务拆解为同步进行的子任务，利用集群算力大幅压缩处理时间 [18] - 系统采用PARL（并行智能体强化学习）框架进行指挥，由调度器负责宏观任务拆解与分发，参数冻结的子智能体负责高效执行具体指令 [20][21][22] - 训练过程采用阶段性奖励塑造策略，初期优先激励调度器进行并行化探索，后期奖励重心平滑过渡至任务最终成功率 [25][26] - 效率评估引入临界步骤作为核心指标，聚焦调度开销与最慢子智能体的耗时，以缩短端到端实际等待时间为目标，在极致速度与计算资源消耗之间寻找平衡 [28] 团队沟通与未来展望 - 月之暗面三位创始人在Reddit进行了长达3小时的AMA问答，与全球开发者交流 [29][30] - 对于下一代Kimi K3，团队预告其很可能基于线性注意力机制，并预期相比K2.5将会有质的飞跃，甚至可能有10倍的提升 [31][32] - 团队解释K2.5偶尔会自称Claude的现象，是由于模型训练数据中包含了大量高质量的编程数据，而这些数据里充斥着Claude的名字 [34] - 团队认为堆砌算力不是通往AGI的唯一路径，在有限资源下追求更高效的算法和更聪明的架构是其核心目标 [38]

原生多模态

智能体集群

线性注意力机制

Artificial Intelligence

Artificial Intelligence

Kimi K2.5

Kimi K3

月之暗面三位联创深夜回应一切，3小时答全球网友23问，杨植麟剧透Kimi K3提升巨大

36氪· 2026-01-29 08:17

公司概况与研发文化 - 公司核心团队在Reddit平台进行了长达3小时的AMA活动，回答了超过40个问题 [1][3] - 公司拥有“把事情真正做成并落地”的共同价值观，而非追求表面光鲜 [4][9] - 公司鼓励全员参与技术讨论，每天对实验方向进行深入探讨，以决定继续、调整或放弃 [9] - 公司在押注技术基本面上有良好记录，例如MoBA项目几乎从公司成立之初开始，Kimi Linear项目经历了近一年的探索 [9] - 公司创始人认为训练模型的过程是不断接近“智能如何被创造”的真相 [9] 算力储备与行业竞争 - 公司CEO杨植麟承认，在GPU数量上与其他企业的差距并未缩小 [3][8] - 算法负责人周昕宇认为“创新往往诞生于约束之中”，暗示在有限算力下寻求突破 [3][8] - 对于实现AGI所需的算力规模，公司持开放态度，认为仍需拭目以待 [3][8] Kimi K2.5 模型技术细节 - Kimi K2.5是公司目前最强大的模型，在视觉、编程、智能体及通用任务上表现良好 [4] - 模型通过“智能体蜂群”技术，可调度多达100个子智能体，任务执行效率最高提升450% [4] - 针对模型有时自称为“Claude”的现象，CEO解释主要源于预训练阶段对最新编程数据进行了上采样，这些数据与“Claude”这个词元关联性强，并非模型蒸馏自Claude的证据 [3][16] - 公司称K2.5在多项基准测试中优于Claude，例如HLE、BrowseComp、MMMU Pro和MathVision [3][17] - 公司通过提高数据质量（更多验证知识）和调整奖励机制（惩罚幻觉）来降低模型幻觉问题 [17] - Kimi K2.5采用了较高的参数比例（约470:1），使用了15万亿个token进行训练，公司认为适度“过度训练”是为获得更优整体权衡而支付的“成本”，而非浪费 [17][18] - “智能体蜂群”技术允许子智能体拥有独立工作记忆，只在必要时将结果返回主调度器，从而避免了上下文污染，并在新维度上扩展了整体上下文长度 [18] - 公司认为在参数规模足够的情况下，编程能力与创意写作等“软性”能力不存在根本冲突，但保持一致的“写作品味”是一项挑战，公司通过内部基准评测来调整奖励模型 [19] - 公司承认模型版本迭代会导致“个性”变化，这是一个棘手且主观的评估问题，正在努力解决以满足用户个性化需求 [20] - 公司开发了自有编程工具Kimi Code，以更好地匹配其模型框架，并拥有视频输入等独有功能，认为video2code代表前端开发的未来 [11][12] 技术研发方法与挑战 - 训练视觉语言模型的主要挑战在于同时提升文本和视觉性能，公司发现方法得当时两者可相互促进，例如视觉任务上的强化学习训练可提升文本知识基准成绩 [10] - 强化学习基础设施是巨大挑战，公司力求在保持灵活性的同时实现高效率，并复用繁重计算工作以实现规模化扩展 [12] - 智能体蜂群的部署逻辑复杂，但公司系统具有高灵活性，允许集成不同框架和子智能体设置到训练过程中 [13] - 公司的Scaling实验从非常小的规模开始，有时小到可在单个CPU上训练，核心目标是预测系统的可扩展性 [13] - 公司曾急于将Kimi Linear移植到Kimi K2中，但遭遇规模化失败，经过数月调试才使其达到现有水平 [13] - 公司认为大多数小规模有效的方案无法突破规模化瓶颈，能成功推广的方案通常简单有效且有数学依据，研究的重点在于应对失败 [13] - 对于DeepSeek的Engram架构，公司认为对嵌入进行Scaling是有趣方向，但在通过Scaling阶梯测试前尚无可靠数据 [8] - 关于强化学习算力预算，CEO表示其计算量将持续增长，且未来可能出现更多新的目标函数对模型进行强化训练，尤其是在智能体领域 [15] - 公司认为当前模型能力的瓶颈往往不在于路线复杂度，而在于任务本身是否可验证，智能的上限更取决于能否发明新的学习算法 [15][16] - 公司使用小型视觉编码器（如400M），因为其有利于Scaling，甚至考虑过设为0的可能性 [26] - 目前公司没有足够资源处理音频输入，可能将重点放在训练更好的智能体上 [26] 未来规划与Kimi K3展望 - 对于下一代模型Kimi K3，CEO未透露太多细节，但提到会在Kimi Linear基础上加入更多架构优化 [3] - CEO相信Kimi K3就算没有比K2.5强10倍，也肯定会强很多 [3][23] - Kimi K3将尝试新的架构和功能 [21] - 线性架构是一个非常不错的选择，公司做了大量研究，Kimi Linear是与之并行的一项专门研究项目 [22][24] - 公司正大力投资线性注意力机制，将其作为未来模型的关键方向 [24] - 公司相信持续学习能够提升模型的自主性并使其更长时间高效工作，正在积极探索该方向 [24] - 公司认为模型的核心在于“品味”，因为智能是非同质化的，并指出K2.5相比其他模型更少迎合用户，这可能是一种好的性格特征 [25] - “智能体蜂群”功能目前处于测试阶段，待其更加稳定后，公司将向开发者提供框架 [25]

杨植麟带 Kimi 团队深夜回应：关于 K2 Thinking 爆火后的一切争议

AI前线· 2025-11-11 14:42

文章核心观点 - 月之暗面公司发布并开源了Kimi K2 Thinking模型，该模型被定位为“模型即Agent”，在多项关键基准测试中表现优异，甚至超越了GPT-5、Claude 4.5等顶级闭源模型[2][10] - 该模型的核心创新在于其“原生智能体”设计，通过KDA注意力机制、原生INT4量化等系统性工程优化，实现了在推理、编码、搜索和写作等任务上的能力跃迁，标志着开源模型首次具备正面对抗闭源巨头的实力[27][28][30][41] 模型性能与基准测试 - 在HLE基准测试中，Kimi K2 Thinking得分44.9，高于GPT-5的41.7和Claude 4.5的32[12] - 在BrowseComp测试中，Kimi K2 Thinking得分60.2，显著高于GPT-5的54.9和Claude 4.5的24.1[12] - 在AIME25数学推理测试中，Kimi K2 Thinking达到99.1%，与GPT-5的99.6%和Claude 4.5的100%几乎持平[12] - 模型支持256k上下文窗口，输入定价为每百万tokens 0.60美元，输出定价为每百万tokens 2.50美元，具备成本优势[12] - 模型可稳定完成200-300次连续工具调用，远超竞争对手的数十次水平[12][29] 技术创新与架构 - 模型引入了关键的KDA注意力机制，采用“增量更新+门控”方式，解决了MoE模型长上下文一致性差和KV缓存大的问题，相关设计思想将延续到下一代K3模型[15][38] - 通过采用原生INT4量化感知训练，模型在几乎不损失精度的前提下，推理速度提升约两倍，显存占用显著下降[35][36] - KDA机制通过增量式计算将KV缓存与显存开销减少约75%，结合MoE架构，共同保障了模型在长推理任务中的稳定表现[38][39] 团队回应与未来规划 - 公司联合创始人杨植麟确认团队正在开发视觉语言模型[18] - 对于网传的460万美元训练成本，公司澄清并非官方数据，强调训练成本难以量化[20] - 团队承认模型在响应速度上相比GPT-5有5-10倍差距，但解释这是为追求思维深度所做的权衡，并正在积极提升token效率[20][21] - 团队认可用户关于模型输出存在“slop问题”的反馈，表示已在减少语言啰嗦重复方面取得进展，并计划在未来版本中提升情绪表达的真实性和开放性[23][25] 应用能力与市场定位 - 模型在SWE-bench Verified编码基准测试中达到71.3%，展现出“智能体级”开发能力，能够完成从需求理解到调试验证的完整闭环[32] - 在智能搜索任务中，模型具备“边搜索边推理”的能力，能够通过多轮“思考-工具调用”循环处理复杂问题[34] - 模型在创意写作和学术研究场景中表现出色，能将零散灵感组织成结构清晰的长篇文本，并保证逻辑一致性[35] - 此次发布被视为公司在行业空窗期的一次“翻身仗”，为开源阵营提供了对抗闭源巨头的底气[27]