Workflow
基于模型奖励思维的强化学习(RLMT)
icon
搜索文档
颠覆大模型后训练,陈丹琦团队提出「基于模型奖励思维的强化学习」RLMT
36氪· 2025-09-29 18:54
研究突破与核心观点 - 普林斯顿大学陈丹琦团队提出新型训练框架RLMT,将可验证领域的推理能力成功迁移至通用聊天场景,实现大语言模型在开放式任务上的突破 [2][3] - RLMT框架的核心创新在于融合了RLVR的显式推理引导和RLHF的人类偏好对齐,要求模型在生成最终响应前先生成详细推理轨迹,并通过基于偏好的奖励模型进行在线强化学习优化 [6][7] - 经RLMT训练的8B参数模型在聊天和创意写作方面超越GPT-4o,并与Claude-3.7-Sonnet (Thinking)相当,展现出以小博大的强大性能 [3][16] 技术框架与实现方法 - RLMT框架采用先生成推理轨迹再输出结果的模式,通过GRPO等在线强化学习算法,使用偏好奖励模型对整个"推理+响应"过程进行评分优化 [7][10] - 框架支持两种训练模式:基于Gemini 2.5 Flash或GPT-4.1-mini生成带推理轨迹数据进行监督微调的热启动模式,以及直接应用于基础模型的零训练模式 [11] - 研究团队在关键环节进行精心设计,包括选用GRPO算法、采用高性能奖励模型Skywork-v1-Llama-3.1-8B-v0.2,以及构建覆盖真实用户对话的7.5k提示库 [10] 性能表现与实验结果 - 实验覆盖Llama-3.1-8B和Qwen-2.5-7B两个模型家族,在7类基准测试中RLMT模型均大幅领先,聊天基准测试优势最为显著,平均分差达3-8分 [14] - Llama-3.1-8B-Instruct-RLMT在WildBench上获得50.4分,超越近10倍参数的Llama-3.1-70B-Instruct和Qwen2.5-72B-Instruct,甚至超过GPT-4o [16][17] - 零训练模式效果显著,Llama-3.1-8B-RLMT-Zero聊天平均分达15.6,比使用2500万+样本多阶段训练的Llama-3.1-8B-Instruct高5.5分 [18] 训练效率与行业影响 - RLMT仅使用7K个提示训练的Llama-3.1-8B基础模型即超越经过复杂多阶段流程、使用25M+示例训练的Llama-3.1-8B-Instruct,极大提升训练效率 [3][25] - 该研究打破了依赖"海量数据+多阶段微调"的传统后训练范式,证明通过激发模型"思考能力"可显著提升通用能力,无需大量数据堆积 [25] - 消融实验表明提示质量、奖励模型强度和推理过程三者缺一不可,使用真实对话提示训练的模型比简单提示或数学题提示高5-7分 [19][20] 推理行为与思维模式 - RLMT模型展现出接近人类的复杂推理模式,能够仔细枚举任务约束、将零散想法按主题分组并迭代优化细节,而非简单的线性分步规划 [23] - 训练过程中模型推理轨迹和响应长度持续增加,Llama-3.1-8B-RLMT-Zero推理token从不足200增长至600以上,表明模型学会用更长时间梳理思路 [24] - 特征分析显示RLMT模型在"权衡不同观点""将想法归类为主题"等特征上胜率远超SFT模型,推理方式从"机械分步"转向"灵活优化" [24]