核心观点 - RM-R1框架将奖励建模重新定义为推理任务,提出推理奖励模型(ReasRMs),通过生成结构化评估标准和推理过程提升模型可解释性和性能[1][5] - 实验验证推理能力是奖励模型关键要素,两阶段训练范式(推理蒸馏+强化学习)展现出高效性,链式评估准则(CoR)机制带来深度可解释性与卓越性能[33][34][35] - RM-R1在多个基准测试中超越更大规模的开源和闭源模型,性能提升高达8.7%,证明推理能力比模型规模更重要[25][26] 技术架构 - 引入链式评估准则(CoR)机制,将任务动态分类为推理型或对话型,分别采用内部专家解决方案或定制化评估准则进行多维度判断[9][10][11][12] - 推理型任务要求模型先自行生成解决方案作为基准,对话型任务则生成带权重的评估准则和理由,实现类似人类的复杂偏好判断[11][12] - CoR机制通过预定义逻辑序列、任务特定评估和透明推理痕迹,实现深度元推理能力[13] 训练方法 - 采用两阶段训练流程:推理蒸馏阶段从高质量推理链提取知识,强化学习阶段用可验证奖励信号优化推理能力[17][18][19] - 消融研究表明推理蒸馏是关键因素,单独的强化学习无法弥补性能差距,CoR提示工程显著优化推理过程[30] - 仅需8.7K蒸馏示例即可达到与800K示例训练模型相当的性能,展现卓越数据效率[31] 性能表现 - RM-R1-DeepSeek-Distilled-Qwen-32B在数学和代码任务中准确率分别达91.8%和74.1%,远超此前最佳表现(数学73%,代码63%)[26] - 模型规模与性能呈线性关系,32B版本在多个基准平均表现达81.5%,超越INF-ORM-Llama3.1-70B和GPT-4o等大模型[25][26] - 在RM-Bench推理密集型基准上,14B版本性能达79.6%,32B版本提升至81.5%,显示计算预算增加对推理能力的积极影响[26][29] 行业意义 - 开创基于推理的可解释奖励范式,为大模型对齐研究提供新方向,强调认知能力提升比规模扩张更重要[32][34] - 结构化推理方法使模型能处理复杂场景判断,在安全、数学等专业领域展现突破性进展[8][26] - 小模型高效训练路径为资源有限团队提供实际部署方案,具有显著经济优势[31][35]
从打分器到思考者:RM-R1用推理重塑模型价值判断
机器之心·2025-05-31 12:00