文章核心观点 - 当前大模型评测过于依赖最终答案正确性,忽略了推理过程的质量差异,这可能导致模型生成低效、冗余甚至包含错误步骤的推理链[4][5] - 来自上海人工智能实验室、上海交通大学、香港中文大学的研究团队提出了TRM(Thinking Reward Model),旨在将推理过程的质量从主观感受转化为可度量、可训练、可优化的能力[6][37] - TRM通过ME² principle定义推理质量,通过DAG-based pairwise evaluation结构化推理链,并训练奖励模型,其信号可用于测试时选择和强化学习,以提升模型答案准确率和推理过程质量[7][10] 研究背景与问题 - 传统大模型评测主要看最终答案是否正确,这种方式对于推理模型而言存在关键缺陷:无法区分高质量与低质量的推理过程[8][9] - 低质量推理(如反复重启思路、大量无效检查、错误步骤支撑正确结论)不仅增加生成成本,也导致模型在条件变化时更易出错[9][10] - 在强化学习训练中,仅基于最终答案的奖励信号会平等对待所有答对的推理链,无法引导模型学习更清晰、紧凑的推理方式[10] TRM方法论框架 - ME² principle:从宏观/微观、高效/有效四个正交维度定义高质量推理[12] - Macro-Efficiency:整体结构高效,沿必要分支推进,避免反复重启和无效检查[12] - Macro-Effectiveness:整体结构有效,主线围绕目标,分支关系清晰,论证前后衔接[12] - Micro-Efficiency:单步表达简洁,每一步有明确作用[12] - Micro-Effectiveness:单步内容正确,计算、符号使用和结论自洽[12] - DAG-based pairwise evaluation:将自由形式的推理链抽象为有向无环图(DAG),使其结构可评估[14][15] - 过程分为三步:Step Partitioning(步骤分割)、Reasoning Structuring(推理结构化)、Pairwise Evaluation(成对评估)[16] - 此方法能清晰呈现推理中的线性推进、分支探索和分支合并等复杂结构[15][16] - TRM训练与数据集:基于ME² principle,使用DeepSeek-V3.2对DAG进行成对评估,构建了TRM-Preference数据集(包含103K训练偏好对和1.5K验证偏好对)[18][19] - TRM以Llama-3.1-8B-Instruct为初始化,将语言建模头替换为标量value head进行训练[19] - 在验证集上,TRM取得了88.6%的准确率,优于两个代表性PRM基线(Qwen2.5-Math-PRM-7B准确率46.3%,ReasonFlux-PRM-7B准确率62.5%)[20][21] 核心发现与应用效果 - 核心发现一:高质量推理链得出的答案更可靠 - 在测试时使用Best-of-N selection,让TRM从同一问题的多条候选推理链中选出质量最高的一条[22] - 实验显示,随着N增大,TRM选出的结果能带来更高的最终准确率[22] - 核心发现二:用作RL奖励,模型答得更准 - 在强化学习训练中,将TRM作为辅助奖励信号,通过GRPO算法和门控奖励塑造(仅在答案正确时引入TRM奖励)与可验证奖励组合[23][25][26] - 实验在多个模型和STEM/Math任务上带来了稳定的性能提升[27][28] - 例如,对于Qwen2.5-Math-7B模型,在STEM任务平均性能上,TRM策略(31.1%)相比BaseModel(20.3%)提升10.8个百分点;在Math任务平均性能上,TRM策略(46.0%)相比BaseModel(34.5%)提升11.5个百分点[29] - 核心发现三:不止答案更准,推理过程也更优 - 使用DeepSeek-V3.2按照ME² principle对不同训练策略生成的推理链进行成对比较[30] - 结果显示,在三个基座模型上,TRM训练后的策略相较于多种基线策略都取得了更高胜率,表明其生成的推理过程更清晰、高效、可靠[31][32] 行业意义与未来展望 - 随着大模型应用于复杂数学、科学推理、智能体规划和长期任务执行,推理过程质量的重要性将持续上升[35] - 未来的模型不仅需要答对,更需要擅长组织思路、减少无效分支、抓住关键步骤[36] - TRM的研究意义在于,它将“想得好”这种主观能力,转变为一种可度量、可训练、可优化的技术目标[37]
TRM思考奖励模型上线,大模型推理质量终于能量化了 | ICML‘26 Oral
量子位·2026-06-24 12:01