端到端智能体强化学习
搜索文档
再给老外亿点点震撼?Kimi杨植麟:啥时发K3? 奥特曼的万亿数据中心建成前
华尔街见闻· 2025-11-12 21:05
模型性能与市场定位 - 月之暗面Kimi K2 Thinking模型在多项核心基准测试中超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5 [1] - 模型API调用价格为每百万token输入1-4元,输出16元,仅为GPT-5价格的四分之一 [9] - 发布后不到48小时内,模型在Hugging Face的下载量已超过5万次,成为该平台最热门的开源模型 [21] 技术架构与成本控制 - 模型采用1万亿参数的混合专家架构,但每次推理仅激活320亿参数,并使用原生INT4量化技术,将推理速度提升约2倍 [9] - 团队使用配备Infiniband的H800 GPU进行训练,强调对每张显卡性能的极致利用 [9] - 针对460万美元训练成本的传闻,公司回应称并非官方数据,且由于研究和实验成本占比较大,真实训练成本难以量化 [7][9] 产品特性与设计理念 - 当前版本更看重绝对性能而非token效率,模型能够连续执行200-300次工具调用来解决复杂问题 [11][13] - 采用端到端智能体强化学习训练方式,支持交错的“思考-工具”模式,这是开发过程中的主要挑战之一 [14] - 模型采用Modified MIT许可证,当被用于超过一亿月活用户或2000万美元月收入的商业产品时,需注明使用了Kimi K2模型 [18] 未来发展规划 - 对于K3的发布时间,公司给出了一个幽默且非具体的回应 [14] - 在多模态能力方面,公司决定先发布文本模型,因为训练视觉语言模型需要更多时间获取数据和调整训练 [15] - 公司透露KDA是其最新的实验性架构,相关理念可能应用于K3,该架构采用3:1的比例混合KDA和MLA路线,以优化性能、速度和显存占用 [22] 行业观点与竞争策略 - 公司拥抱开源,其理念是相信AGI应该是一种导致团结而不是分裂的追求 [17] - 对于是否会发布更大规模闭源模型,公司暗示会考虑模型安全性因素 [19] - 对于DeepSeek的OCR技术路线,公司联合创始人表达了不同看法,倾向于寻找更通用且与具体模态无关的方法来提升模型效率 [22]
月之暗面「调教」出最强Agent,在「人类最后一场考试」拿下最新 SOTA
机器之心· 2025-06-21 13:06
核心观点 - Kimi-Researcher是一款基于自研Kimi k系列模型的自主Agent,擅长多轮搜索和推理,平均每项任务执行23个推理步骤,访问超过200个网址[2] - 该Agent在"人类最后一场考试"中取得26.9%的Pass@1成绩,创下SOTA水平,Pass@4准确率达40.17%[3] - 通过端到端强化学习训练,Kimi-Researcher从初始8.6%的HLE分数提升至26.9%,证明该方法在提升Agent智能方面的潜力[4] - 在xbench-DeepSearch子任务上平均pass@1达到69%,超越其他带有搜索工具的模型[4] - 能够根据模糊信息进行电影识别、学术研究、法律政策分析、企业财报分析等复杂任务[7][8][10] 技术架构 - 基于三个主要工具:并行实时内部搜索工具、基于文本的浏览器工具、自动执行代码的编码工具[13] - 采用端到端智能体强化学习方法,训练单一模型整体性解决问题,融合规划、感知、工具使用等能力[14] - 使用REINFORCE算法训练,引入gamma衰减因子提升效率,鼓励更短更高效的探索路径[24][25] - 设计上下文管理机制,将单条轨迹迭代次数扩展至50次以上,平均提升30%的迭代次数[27][30] 训练方法 - 通过自动合成训练数据解决高质量强化学习数据集稀缺问题[20] - 设计以工具使用为核心和以推理为核心的两类任务,促进智能体深入学习[21] - 开发全自动数据生成与验证流程,确保数据多样性与准确性[21] - 引入Pass@N检查机制,保留具有挑战性的问题[22] - 采用基于最终结果的奖励机制,保持训练环境中的一致偏好方向[24] 性能表现 - 在FRAMES、Seal-0等多轮搜索推理和SimpleQA等事实信息检索基准测试中表现优异[4] - 能够处理超过70次搜索查询的长程任务,上下文窗口长度达数十万token[20] - 展现出谨慎严谨的行为模式,主动进行额外搜索和交叉验证[35] - 具备迭代假设修正与自我纠错能力,可消除多来源信息冲突[35] 部署计划 - 已开始逐步向用户推出,可在Kimi内实现对任意主题的深入全面研究[11] - 计划在未来几个月内开源基础预训练模型及其强化学习模型[11] - 构建了基于Kubernetes的混合云架构,支持多副本部署,确保生产环境容错能力与高可用性[34]