Workflow
Kimi K3
icon
搜索文档
Kimi K2.5登顶开源第一!15T数据训练秘籍公开,杨植麟剧透K3
量子位· 2026-02-03 08:37
开源模型市场表现 - Kimi K2.5在开源社区平台Hugging Face上成为趋势榜首,下载量超过5.3万次 [2] 模型核心能力与性能 - Kimi K2.5主打智能体(Agent)能力,在HLE-Full、BrowseComp等测试集中,其表现超越了GPT-5.2、Claude 4.5 Opus以及Gemini 3 Pro等旗舰闭源模型 [3] - 在BrowseComp测试中达到比GPT-5.2更高的表现,而资金消耗仅有不到5%,显示出极高的性价比 [9] 技术架构与训练方法 - 模型采用原生多模态技术路线,使用同一套参数空间直接处理视觉信号与文本逻辑 [7] - 在K2架构基础上,投入了15万亿(15T)的视觉与文本混合Token进行持续预训练 [6] - 在15T的庞大数据量级下,模型的视觉理解与文本推理能力实现了同步增强 [8] 视觉编程与自动化调试 - 基于原生多模态底座,K2.5解锁了“视觉编程”能力,能够从视频流直接逆向推导代码 [11] - 模型能够从包含复杂特效的网页演示视频中,捕捉视觉元素随时间变化的规律,并直接映射为可执行的前端代码,实现从设计演示到代码实现的无损转化 [12] - 模型集成了自主视觉调试机制,在代码生成并渲染界面后,会调用视觉感知能力对实际运行页面进行验收,发现问题后自动触发文档查询工具进行定位和修正,形成“生成-观察-查阅-修复”的自动化闭环 [14][15][16] 智能体集群系统 - Kimi K2.5搭载了Agent Swarm架构,能够自主构建并编排多达100个子智能体,并支持调用1500个工具的并行工作流 [17] - 该系统将复杂任务拆解为同步进行的子任务,利用集群算力大幅压缩处理时间 [18] - 系统采用PARL(并行智能体强化学习)框架进行指挥,由调度器负责宏观任务拆解与分发,参数冻结的子智能体负责高效执行具体指令 [20][21][22] - 训练过程采用阶段性奖励塑造策略,初期优先激励调度器进行并行化探索,后期奖励重心平滑过渡至任务最终成功率 [25][26] - 效率评估引入临界步骤作为核心指标,聚焦调度开销与最慢子智能体的耗时,以缩短端到端实际等待时间为目标,在极致速度与计算资源消耗之间寻找平衡 [28] 团队沟通与未来展望 - 月之暗面三位创始人在Reddit进行了长达3小时的AMA问答,与全球开发者交流 [29][30] - 对于下一代Kimi K3,团队预告其很可能基于线性注意力机制,并预期相比K2.5将会有质的飞跃,甚至可能有10倍的提升 [31][32] - 团队解释K2.5偶尔会自称Claude的现象,是由于模型训练数据中包含了大量高质量的编程数据,而这些数据里充斥着Claude的名字 [34] - 团队认为堆砌算力不是通往AGI的唯一路径,在有限资源下追求更高效的算法和更聪明的架构是其核心目标 [38]
月之暗面三位联创深夜回应一切,3小时答全球网友23问,杨植麟剧透Kimi K3提升巨大
36氪· 2026-01-29 08:17
公司概况与研发文化 - 公司核心团队在Reddit平台进行了长达3小时的AMA活动,回答了超过40个问题 [1][3] - 公司拥有“把事情真正做成并落地”的共同价值观,而非追求表面光鲜 [4][9] - 公司鼓励全员参与技术讨论,每天对实验方向进行深入探讨,以决定继续、调整或放弃 [9] - 公司在押注技术基本面上有良好记录,例如MoBA项目几乎从公司成立之初开始,Kimi Linear项目经历了近一年的探索 [9] - 公司创始人认为训练模型的过程是不断接近“智能如何被创造”的真相 [9] 算力储备与行业竞争 - 公司CEO杨植麟承认,在GPU数量上与其他企业的差距并未缩小 [3][8] - 算法负责人周昕宇认为“创新往往诞生于约束之中”,暗示在有限算力下寻求突破 [3][8] - 对于实现AGI所需的算力规模,公司持开放态度,认为仍需拭目以待 [3][8] Kimi K2.5 模型技术细节 - Kimi K2.5是公司目前最强大的模型,在视觉、编程、智能体及通用任务上表现良好 [4] - 模型通过“智能体蜂群”技术,可调度多达100个子智能体,任务执行效率最高提升450% [4] - 针对模型有时自称为“Claude”的现象,CEO解释主要源于预训练阶段对最新编程数据进行了上采样,这些数据与“Claude”这个词元关联性强,并非模型蒸馏自Claude的证据 [3][16] - 公司称K2.5在多项基准测试中优于Claude,例如HLE、BrowseComp、MMMU Pro和MathVision [3][17] - 公司通过提高数据质量(更多验证知识)和调整奖励机制(惩罚幻觉)来降低模型幻觉问题 [17] - Kimi K2.5采用了较高的参数比例(约470:1),使用了15万亿个token进行训练,公司认为适度“过度训练”是为获得更优整体权衡而支付的“成本”,而非浪费 [17][18] - “智能体蜂群”技术允许子智能体拥有独立工作记忆,只在必要时将结果返回主调度器,从而避免了上下文污染,并在新维度上扩展了整体上下文长度 [18] - 公司认为在参数规模足够的情况下,编程能力与创意写作等“软性”能力不存在根本冲突,但保持一致的“写作品味”是一项挑战,公司通过内部基准评测来调整奖励模型 [19] - 公司承认模型版本迭代会导致“个性”变化,这是一个棘手且主观的评估问题,正在努力解决以满足用户个性化需求 [20] - 公司开发了自有编程工具Kimi Code,以更好地匹配其模型框架,并拥有视频输入等独有功能,认为video2code代表前端开发的未来 [11][12] 技术研发方法与挑战 - 训练视觉语言模型的主要挑战在于同时提升文本和视觉性能,公司发现方法得当时两者可相互促进,例如视觉任务上的强化学习训练可提升文本知识基准成绩 [10] - 强化学习基础设施是巨大挑战,公司力求在保持灵活性的同时实现高效率,并复用繁重计算工作以实现规模化扩展 [12] - 智能体蜂群的部署逻辑复杂,但公司系统具有高灵活性,允许集成不同框架和子智能体设置到训练过程中 [13] - 公司的Scaling实验从非常小的规模开始,有时小到可在单个CPU上训练,核心目标是预测系统的可扩展性 [13] - 公司曾急于将Kimi Linear移植到Kimi K2中,但遭遇规模化失败,经过数月调试才使其达到现有水平 [13] - 公司认为大多数小规模有效的方案无法突破规模化瓶颈,能成功推广的方案通常简单有效且有数学依据,研究的重点在于应对失败 [13] - 对于DeepSeek的Engram架构,公司认为对嵌入进行Scaling是有趣方向,但在通过Scaling阶梯测试前尚无可靠数据 [8] - 关于强化学习算力预算,CEO表示其计算量将持续增长,且未来可能出现更多新的目标函数对模型进行强化训练,尤其是在智能体领域 [15] - 公司认为当前模型能力的瓶颈往往不在于路线复杂度,而在于任务本身是否可验证,智能的上限更取决于能否发明新的学习算法 [15][16] - 公司使用小型视觉编码器(如400M),因为其有利于Scaling,甚至考虑过设为0的可能性 [26] - 目前公司没有足够资源处理音频输入,可能将重点放在训练更好的智能体上 [26] 未来规划与Kimi K3展望 - 对于下一代模型Kimi K3,CEO未透露太多细节,但提到会在Kimi Linear基础上加入更多架构优化 [3] - CEO相信Kimi K3就算没有比K2.5强10倍,也肯定会强很多 [3][23] - Kimi K3将尝试新的架构和功能 [21] - 线性架构是一个非常不错的选择,公司做了大量研究,Kimi Linear是与之并行的一项专门研究项目 [22][24] - 公司正大力投资线性注意力机制,将其作为未来模型的关键方向 [24] - 公司相信持续学习能够提升模型的自主性并使其更长时间高效工作,正在积极探索该方向 [24] - 公司认为模型的核心在于“品味”,因为智能是非同质化的,并指出K2.5相比其他模型更少迎合用户,这可能是一种好的性格特征 [25] - “智能体蜂群”功能目前处于测试阶段,待其更加稳定后,公司将向开发者提供框架 [25]
杨植麟带 Kimi 团队深夜回应:关于 K2 Thinking 爆火后的一切争议
AI前线· 2025-11-11 14:42
文章核心观点 - 月之暗面公司发布并开源了Kimi K2 Thinking模型,该模型被定位为“模型即Agent”,在多项关键基准测试中表现优异,甚至超越了GPT-5、Claude 4.5等顶级闭源模型[2][10] - 该模型的核心创新在于其“原生智能体”设计,通过KDA注意力机制、原生INT4量化等系统性工程优化,实现了在推理、编码、搜索和写作等任务上的能力跃迁,标志着开源模型首次具备正面对抗闭源巨头的实力[27][28][30][41] 模型性能与基准测试 - 在HLE基准测试中,Kimi K2 Thinking得分44.9,高于GPT-5的41.7和Claude 4.5的32[12] - 在BrowseComp测试中,Kimi K2 Thinking得分60.2,显著高于GPT-5的54.9和Claude 4.5的24.1[12] - 在AIME25数学推理测试中,Kimi K2 Thinking达到99.1%,与GPT-5的99.6%和Claude 4.5的100%几乎持平[12] - 模型支持256k上下文窗口,输入定价为每百万tokens 0.60美元,输出定价为每百万tokens 2.50美元,具备成本优势[12] - 模型可稳定完成200-300次连续工具调用,远超竞争对手的数十次水平[12][29] 技术创新与架构 - 模型引入了关键的KDA注意力机制,采用“增量更新+门控”方式,解决了MoE模型长上下文一致性差和KV缓存大的问题,相关设计思想将延续到下一代K3模型[15][38] - 通过采用原生INT4量化感知训练,模型在几乎不损失精度的前提下,推理速度提升约两倍,显存占用显著下降[35][36] - KDA机制通过增量式计算将KV缓存与显存开销减少约75%,结合MoE架构,共同保障了模型在长推理任务中的稳定表现[38][39] 团队回应与未来规划 - 公司联合创始人杨植麟确认团队正在开发视觉语言模型[18] - 对于网传的460万美元训练成本,公司澄清并非官方数据,强调训练成本难以量化[20] - 团队承认模型在响应速度上相比GPT-5有5-10倍差距,但解释这是为追求思维深度所做的权衡,并正在积极提升token效率[20][21] - 团队认可用户关于模型输出存在“slop问题”的反馈,表示已在减少语言啰嗦重复方面取得进展,并计划在未来版本中提升情绪表达的真实性和开放性[23][25] 应用能力与市场定位 - 模型在SWE-bench Verified编码基准测试中达到71.3%,展现出“智能体级”开发能力,能够完成从需求理解到调试验证的完整闭环[32] - 在智能搜索任务中,模型具备“边搜索边推理”的能力,能够通过多轮“思考-工具调用”循环处理复杂问题[34] - 模型在创意写作和学术研究场景中表现出色,能将零散灵感组织成结构清晰的长篇文本,并保证逻辑一致性[35] - 此次发布被视为公司在行业空窗期的一次“翻身仗”,为开源阵营提供了对抗闭源巨头的底气[27]