Workflow
Parallel Reasoning
icon
搜索文档
告别「单线程」思维:通研院提出NPR框架,让智能体进化出原生的并行推理大脑
机器之心· 2025-12-27 12:01
核心观点 - 北京通用人工智能研究院提出了一种名为“原生并行推理器”的新方法,旨在解决大语言模型在复杂推理场景中传统链式思维的局限性,通过让模型在一次思考中同时衍生并维护多条候选推理路径,并在关键节点进行分支与聚合,以合成最优解 [2] - 该方法的核心突破在于提出了一套“自蒸馏 + 并行强化学习”的三阶段训练范式,并配套专门的并行推理引擎,目标是让并行推理从外挂技巧变为模型的原生认知能力 [2] 背景与痛点 - 未来更强的智能体需要具备广泛探索多条思考路径的能力,类似MapReduce的分而治之思路,但将其天然整合进智能体存在巨大挑战 [4] - 现有方法面临三大挑战:1) 算法与架构不匹配,现有推理引擎和强化学习算法难以原生支持“分支+聚合”操作 [5];2) 低效的手工并行机制导致分支间重复计算,效率低下 [6];3) 对强监督蒸馏的依赖,使得模型难以超越教师模型的局限,达到智能瓶颈 [7] 核心理念与训练范式 - NPR的关键在于“原生”,旨在零外部监督的条件下,让模型自我进化出并行推理能力 [15] - 采用渐进式三阶段训练范式:第一阶段为并行格式学习,让模型掌握并行推理的表达结构 [16];第二阶段为自蒸馏,让模型内化并行思考逻辑,摆脱对外部教师模型的依赖 [17];第三阶段为并行感知强化学习,让模型学会在推理过程中执行并行控制逻辑 [18] - 经过三阶段训练,NPR在测试中的准确率从约17%持续爬升至50.4%,并实现了约4.6倍的生成加速 [19] 具体实现细节 - 第一阶段通过格式遵循强化学习,让模型学会生成结构化的并行格式轨迹 [21] - 第二阶段通过拒绝采样与并行预热,对第一阶段产物进行严格筛选,保留高质量并行推理轨迹用于监督微调,并引入并行注意力掩码与并行位置编码以支持并行分支独立计算并实现KV Cache重用 [21][24] - 第三阶段提出并行感知策略优化方法,直接在并行计算图内优化分支策略,并配套NPR-Engine推理引擎以解决工程化问题 [24][29] - 关键技术包括:自蒸馏与严格筛选 [23]、并行注意力掩码与并行位置编码 [24]、并行感知策略优化 [27]、以及工程改进如预算感知的KV回收和格式预检 [29][36] 主要实验与结论 - 在8个推理基准上评测,使用自行提炼的数据集替换Multiverse的训练语料后,性能显著提升:AIME24从46.7提升至50.8,ZebraLogic从60.2提升至76.1,AMC23从75.0提升至85.9,MATH500从81.6提升至91.6,总体平均得分从50.1提升至59.0 [33] - 从顺序监督微切换至并行监督微调能提升模型性能,例如AIME25从37.1提升至42.9 [34] - 在并行监督微调基础上应用并行强化学习能获得进一步性能提升,总体平均得分从62.0提升至65.0 [35] - NPR在所有八个数据集上均达到了100.0%的并行触发率,而Multiverse的并行率则因数据集而异 [37] - 在推理效率上,NPR始终优于Multiverse和自回归基线,加速比随任务难度增加,在AIME25上达到4.6倍加速,在HMMT25上达到4.1倍加速 [38][39] 案例解析与结语 - 案例显示NPR的典型推理模式为:并行产生若干独立计划,每个计划独立展开推理步骤,最后整合与交叉验证得出最终答案 [40] - 该方法构建了一个无需依赖外部教师模型即可学习自适应分解、多样化并行规划和可靠聚合的原生并行推理器,在多个基准测试上显示出显著改进,是实现更通用、可扩展智能的有前景方向 [46]