核心观点 - Kimi-Researcher是一款基于自研Kimi k系列模型的自主Agent,擅长多轮搜索和推理,平均每项任务执行23个推理步骤,访问超过200个网址[2] - 该Agent在"人类最后一场考试"中取得26.9%的Pass@1成绩,创下SOTA水平,Pass@4准确率达40.17%[3] - 通过端到端强化学习训练,Kimi-Researcher从初始8.6%的HLE分数提升至26.9%,证明该方法在提升Agent智能方面的潜力[4] - 在xbench-DeepSearch子任务上平均pass@1达到69%,超越其他带有搜索工具的模型[4] - 能够根据模糊信息进行电影识别、学术研究、法律政策分析、企业财报分析等复杂任务[7][8][10] 技术架构 - 基于三个主要工具:并行实时内部搜索工具、基于文本的浏览器工具、自动执行代码的编码工具[13] - 采用端到端智能体强化学习方法,训练单一模型整体性解决问题,融合规划、感知、工具使用等能力[14] - 使用REINFORCE算法训练,引入gamma衰减因子提升效率,鼓励更短更高效的探索路径[24][25] - 设计上下文管理机制,将单条轨迹迭代次数扩展至50次以上,平均提升30%的迭代次数[27][30] 训练方法 - 通过自动合成训练数据解决高质量强化学习数据集稀缺问题[20] - 设计以工具使用为核心和以推理为核心的两类任务,促进智能体深入学习[21] - 开发全自动数据生成与验证流程,确保数据多样性与准确性[21] - 引入Pass@N检查机制,保留具有挑战性的问题[22] - 采用基于最终结果的奖励机制,保持训练环境中的一致偏好方向[24] 性能表现 - 在FRAMES、Seal-0等多轮搜索推理和SimpleQA等事实信息检索基准测试中表现优异[4] - 能够处理超过70次搜索查询的长程任务,上下文窗口长度达数十万token[20] - 展现出谨慎严谨的行为模式,主动进行额外搜索和交叉验证[35] - 具备迭代假设修正与自我纠错能力,可消除多来源信息冲突[35] 部署计划 - 已开始逐步向用户推出,可在Kimi内实现对任意主题的深入全面研究[11] - 计划在未来几个月内开源基础预训练模型及其强化学习模型[11] - 构建了基于Kubernetes的混合云架构,支持多副本部署,确保生产环境容错能力与高可用性[34]
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
机器之心·2025-06-21 13:06