Workflow
RLMT(基于模型奖励思维的强化学习)
icon
搜索文档
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o
量子位· 2025-09-28 12:56
文章核心观点 - 提出一种名为RLMT(基于模型奖励思维的强化学习)的新方法,该方法结合了RLHF和RLVR的优点 [4] - RLMT方法能使参数量仅8B的小模型性能超越GPT-4o,并媲美Claude-3.7-Sonnet [1] - 该方法支持在基础模型上直接使用,无需经过监督微调(SFT),可大幅降低后训练成本 [6] 技术方法与原理 - RLMT要求模型在回答前先生成思维链(CoT),然后使用经人类偏好训练的奖励模型对输出进行评价 [5] - 训练流程为:给定用户提示x,模型生成推理轨迹z,基于推理生成最终回答y,奖励模型r(x, y)对结果打分 [14] - 数学优化目标是最大化期望奖励 [15][16] - 使用人类偏好奖励模型(如Skywork-v2)在流畅性、相关性、逻辑性、创意等维度进行评分 [17] - 在优化算法上,实验了DPO、PPO、GRPO,其中GRPO效果最佳 [17] 性能表现与基准测试 - 在Wildbench等基准测试上,经过RLMT优化的Qwen2.5-7B模型大幅领先其他模型 [13] - 具体数据显示,L3.1-8B-I-RLMT模型在综合评测(Avg)中得分为54.1,超越了GPT-4o的53.2和L3.1-70B-Instruct的32.1 [7] - 在CWv3评测项上,L3.1-8B-I-RLMT得分为22.9,虽低于Claude3.7-Sonnet的39.3和GPT-4o的32.1,但显著高于其他大模型 [7] - 消融实验表明,使用不同提示混合(Prompt mixture)和奖励模型(Reward Model)对最终效果有显著影响 [18] 训练方式与成本优势 - 提供两种训练方式:带SFT预热的Warm-start方式和无SFT直接训练的Zero方式 [21] - Zero方式可在基础模型上直接加入固定前缀提示,通过学习"思考+回答"结构,最终表现也能超过指令微调模型 [21] - 结果显示小模型经RLMT训练后可超越大模型,大幅简化后训练流程并降低成本 [22] - 训练数据来源于真实用户对话,避免了过度偏向数学/代码领域,提升了在开放任务上的泛化能力 [18] 对行业的影响与意义 - 该方法证明了RLVR范式在数学、代码等可验证领域之外的开放任务上同样有效 [11] - 对于非数学代码问题,模型能自然学会分步骤拆解,如回顾、综合、关键主题、核心准则、举例、结构化回答等人类思考方式 [12][19] - 网友认为该方法为通用强化学习设定了新基线,在后训练时代,谁定义了偏好,谁就掌握了新的评分标准 [8]