Workflow
RLHF与RLVR全都要,陈丹琦团队最新力作将推理能力拓展到通用智能
机器之心·2025-09-28 12:50

文章核心观点 - 提出一种名为“基于模型奖励思维的强化学习”(RLMT)的新方法,旨在弥合大型语言模型在专门推理能力与通用对话能力之间的差距 [5] - RLMT方法将显式的思维链推理融入通用聊天模型,使模型在开放式任务中能进行“思考”,从而提升整体对话表现 [5][7] - 该方法结合了RLHF和RLVR的优势,通过优化目标函数,要求模型在生成最终答案前先生成推理轨迹,并使用奖励模型进行评分 [10][11] - 实验结果表明,启用思维的RLMT模型在多项基准测试中表现优于非思维基线模型,甚至在部分任务上媲美或超越更大的模型 [16][19] RLMT方法原理与动机 - 当前大模型训练面临两难:RLVR方法在数学、编程等可验证领域表现突出但难以泛化到日常对话,RLHF方法擅长对齐人类偏好但未鼓励内部推理过程 [6] - RLMT的动机源于人类处理开放式任务时会进行审慎思考(如规划、权衡、修正),该方法让语言模型模仿此过程以提升能力 [7] - 优化目标函数要求语言模型在生成最终回答y之前,先生成推理轨迹z,并使用奖励模型r对回答进行评分,而非依赖基于规则的验证 [11] 训练方法与实验设置 - 研究尝试了两种训练方法:通过有监督微调(SFT)进行热启动,以及直接在基础模型上应用RLMT的“Zero”方法 [12] - 热启动方法从数据集中采样6k个提示,使用Gemini 2.5 Flash作为教师模型生成模拟思维轨迹进行SFT [13] - “Zero”方法直接在未经后训练的Llama-3.1-8B和Qwen-2.5-7B基础模型上应用RLMT,仅通过添加指令前缀引导输出结构 [14] - 实验比较了不同模型(基础版和指令微调版)在热启动与“Zero”训练设置下,启用思维(RLMT)与不启用思维(RLHF)的表现 [15][17] 实验结果与性能表现 - 启用思维的RLMT模型在聊天基准测试(如WildBench、AlpacaEval2、ArenaHardV2)和创意写作任务上普遍优于非思维基线 [18] - 具体而言,最佳模型Llama-3.1-8B-Instruct-RLMT在WB、AE2、AH2上的得分分别为50.4、58.7、22.9,综合表现优于Llama-3.1-70B-Instruct(32.1)和Qwen2.5-72B-Instruct(45.2),并接近GPT-4o(53.2)和Claude3.7-Sonnet(58.9)的水平 [19] - 在训练算法上,GRPO下的RLMT整体效果优于DPO和PPO,尤其在“Zero”训练设置下优势更明显 [21] 模型行为分析 - 分析表明,RLMT训练能诱发模型产生更优秀的写作习惯,其思维过程与SFT模型不同 [23] - SFT模型的思维过程倾向于从分层规划开始,风格是线性的;而RLMT模型则先列出约束和子主题,再进行分组和规划,风格是迭代式的,会回头修订之前的内容 [25][29] - 这种行为差异使得RLMT模型在规划时更注重全局检查和修正,从而提升了输出质量 [25] 总结与行业意义 - RLMT成功将显式推理优势从专业化领域扩展到通用对话AI,在保持计算效率的同时实现了显著性能提升 [26] - 该方法在不同模型架构、训练算法和评测基准上均有效,表明其具有广泛适用性,有潜力重塑语言模型的训练方式 [26] - “先思考再表达”的RLMT范式代表着迈向更智能、更强大的对话式人工智能系统的重要一步 [26]