智能体蜂群
搜索文档
月之暗面三位联创深夜回应一切,3小时答全球网友23问,杨植麟剧透Kimi K3提升巨大
36氪· 2026-01-29 08:17
公司概况与研发文化 - 公司核心团队在Reddit平台进行了长达3小时的AMA活动,回答了超过40个问题 [1][3] - 公司拥有“把事情真正做成并落地”的共同价值观,而非追求表面光鲜 [4][9] - 公司鼓励全员参与技术讨论,每天对实验方向进行深入探讨,以决定继续、调整或放弃 [9] - 公司在押注技术基本面上有良好记录,例如MoBA项目几乎从公司成立之初开始,Kimi Linear项目经历了近一年的探索 [9] - 公司创始人认为训练模型的过程是不断接近“智能如何被创造”的真相 [9] 算力储备与行业竞争 - 公司CEO杨植麟承认,在GPU数量上与其他企业的差距并未缩小 [3][8] - 算法负责人周昕宇认为“创新往往诞生于约束之中”,暗示在有限算力下寻求突破 [3][8] - 对于实现AGI所需的算力规模,公司持开放态度,认为仍需拭目以待 [3][8] Kimi K2.5 模型技术细节 - Kimi K2.5是公司目前最强大的模型,在视觉、编程、智能体及通用任务上表现良好 [4] - 模型通过“智能体蜂群”技术,可调度多达100个子智能体,任务执行效率最高提升450% [4] - 针对模型有时自称为“Claude”的现象,CEO解释主要源于预训练阶段对最新编程数据进行了上采样,这些数据与“Claude”这个词元关联性强,并非模型蒸馏自Claude的证据 [3][16] - 公司称K2.5在多项基准测试中优于Claude,例如HLE、BrowseComp、MMMU Pro和MathVision [3][17] - 公司通过提高数据质量(更多验证知识)和调整奖励机制(惩罚幻觉)来降低模型幻觉问题 [17] - Kimi K2.5采用了较高的参数比例(约470:1),使用了15万亿个token进行训练,公司认为适度“过度训练”是为获得更优整体权衡而支付的“成本”,而非浪费 [17][18] - “智能体蜂群”技术允许子智能体拥有独立工作记忆,只在必要时将结果返回主调度器,从而避免了上下文污染,并在新维度上扩展了整体上下文长度 [18] - 公司认为在参数规模足够的情况下,编程能力与创意写作等“软性”能力不存在根本冲突,但保持一致的“写作品味”是一项挑战,公司通过内部基准评测来调整奖励模型 [19] - 公司承认模型版本迭代会导致“个性”变化,这是一个棘手且主观的评估问题,正在努力解决以满足用户个性化需求 [20] - 公司开发了自有编程工具Kimi Code,以更好地匹配其模型框架,并拥有视频输入等独有功能,认为video2code代表前端开发的未来 [11][12] 技术研发方法与挑战 - 训练视觉语言模型的主要挑战在于同时提升文本和视觉性能,公司发现方法得当时两者可相互促进,例如视觉任务上的强化学习训练可提升文本知识基准成绩 [10] - 强化学习基础设施是巨大挑战,公司力求在保持灵活性的同时实现高效率,并复用繁重计算工作以实现规模化扩展 [12] - 智能体蜂群的部署逻辑复杂,但公司系统具有高灵活性,允许集成不同框架和子智能体设置到训练过程中 [13] - 公司的Scaling实验从非常小的规模开始,有时小到可在单个CPU上训练,核心目标是预测系统的可扩展性 [13] - 公司曾急于将Kimi Linear移植到Kimi K2中,但遭遇规模化失败,经过数月调试才使其达到现有水平 [13] - 公司认为大多数小规模有效的方案无法突破规模化瓶颈,能成功推广的方案通常简单有效且有数学依据,研究的重点在于应对失败 [13] - 对于DeepSeek的Engram架构,公司认为对嵌入进行Scaling是有趣方向,但在通过Scaling阶梯测试前尚无可靠数据 [8] - 关于强化学习算力预算,CEO表示其计算量将持续增长,且未来可能出现更多新的目标函数对模型进行强化训练,尤其是在智能体领域 [15] - 公司认为当前模型能力的瓶颈往往不在于路线复杂度,而在于任务本身是否可验证,智能的上限更取决于能否发明新的学习算法 [15][16] - 公司使用小型视觉编码器(如400M),因为其有利于Scaling,甚至考虑过设为0的可能性 [26] - 目前公司没有足够资源处理音频输入,可能将重点放在训练更好的智能体上 [26] 未来规划与Kimi K3展望 - 对于下一代模型Kimi K3,CEO未透露太多细节,但提到会在Kimi Linear基础上加入更多架构优化 [3] - CEO相信Kimi K3就算没有比K2.5强10倍,也肯定会强很多 [3][23] - Kimi K3将尝试新的架构和功能 [21] - 线性架构是一个非常不错的选择,公司做了大量研究,Kimi Linear是与之并行的一项专门研究项目 [22][24] - 公司正大力投资线性注意力机制,将其作为未来模型的关键方向 [24] - 公司相信持续学习能够提升模型的自主性并使其更长时间高效工作,正在积极探索该方向 [24] - 公司认为模型的核心在于“品味”,因为智能是非同质化的,并指出K2.5相比其他模型更少迎合用户,这可能是一种好的性格特征 [25] - “智能体蜂群”功能目前处于测试阶段,待其更加稳定后,公司将向开发者提供框架 [25]