蒙特卡洛搜索算法

搜索文档
她如何把“系统2”带给了大模型 |对话微软亚洲研究院张丽
量子位· 2025-05-25 14:07
核心观点 - 微软亚洲研究院张丽团队选择了一条不同于行业主流Scaling Law的路径,专注于提升大模型的深度推理能力,而非单纯扩大参数规模[1][2] - 团队通过蒙特卡洛搜索算法让7B小模型实现了接近OpenAI o1级别的数学推理能力,突破了传统强化学习路线的局限[4][10] - 团队最早将认知科学中的System2概念引入大模型领域,强调深度逻辑思考能力是模型智商的关键[3][18][19] - rStar-Math工作意外涌现出self-reflection能力,验证了该能力对提升模型智商的重要性[21][22][27] 研究方向与技术路径 - 团队研究分为两个方向:拓展模型长文本记忆能力(LongRoPE)和提升深度推理能力(rStar系列)[10][16][17] - 采用蒙特卡洛搜索算法结合过程奖励模型,实现步骤级优化,显著提升小模型在数学推理任务的表现[38][39][51] - 算法创新包括code-augmented CoT(链式思维代码增强)和Tool-Integrity Reasoning(工具完整性推理)[47][48][50] - 蒙特卡洛搜索在小模型上表现优异,7B模型效果接近OpenAI o1,引发行业对小模型潜力的讨论[33][34][41] 行业影响与反馈 - rStar-Math发布后产生破圈效应,学术圈外如媒体、教育、智能车领域均高度关注[33][67][68] - 成果引发对Scaling Law的重新审视,部分观点认为2025年可能是小模型时代的开端[34] - 主要质疑集中在方法泛化性和蒙特卡洛搜索的必要性,团队通过开源代码和数据回应[37][43] - 蒙特卡洛搜索算法在金融、医疗等需轻量化模型的领域展现出应用潜力[43] 技术细节与实验发现 - 蒙特卡洛搜索的核心优势在于过程奖励模型,相比传统Best of N的结果奖励模型更精细[38][39][55] - 实验显示参数规模与效果正相关,但蒙特卡洛算法在固定size下潜力优于强化学习[44][45][46] - 合成数据效果优异归因于code-augmented CoT和过程奖励模型对高质量步骤的筛选[47][51] - 奖励模型构建是当前技术瓶颈,尤其在数学等需严格过程验证的任务中[56][59][60] 未来研究方向 - 团队将聚焦三方面:优化奖励模型、提升策略模型的高级推理能力、扩展至代码推理等新领域[80][81][82] - 数学推理被视为智商天花板任务,当前最强模型在FrontierMath基准上准确率仅2%[84][86][87] - 长文本方向已通过LongRoPE实现算法突破,但需解决效率、数据和算力问题才能规模化[74][77] - 蒙特卡洛搜索在通用任务中性价比有限,更适合复杂场景如数学证明或代码生成[70][72][73] 行业趋势与条件 - 数学能力研究受青睐因数据丰富、验证明确,但实现通用深度推理仍需长期探索[85][87][89] - 模型架构创新聚焦Transformer改进与非Transformer探索,被视为AGI发展关键路径[92][93] - 当前主流仍依赖强化学习,蒙特卡洛搜索尚未形成趋势,但跨领域合作需求显现[43][46][59]