Workflow
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
量子位·2025-05-08 14:58

核心观点 - 多模态奖励模型(MRMs)在多模态大语言模型(MLLMs)表现提升中起关键作用,强化学习(RL)可增强其长期推理能力但存在训练不稳定问题 [1] - 中科院自动化所、清华大学、快手和南京大学团队提出R1-Reward模型,基于MM-RLHF框架,通过StableReinforce算法实现训练稳定性突破 [1][11] - 模型在benchmark上超越SOTA模型5%-15%,且推理采样次数增加时性能可进一步提升 [2][3][42] 技术突破 算法创新 - 提出StableReinforce算法:改进损失函数裁剪操作(Pre-Clip)、设计优势过滤器(3-sigma规则)、引入一致性奖励机制 [11][23][26] - 优化目标函数:Reward(θ)=Ex,yw,yl[logσ(r(ywx)r(ylx))]\ell_{Reward}(\theta)=E_{x,y_w,y_l}[-\log\sigma(r(y_w|x)-r(y_l|x))] 强化好答案与坏答案的分差 [12] - 渐进式训练策略:先用GPT-4o生成20万条偏好数据(R1-Reward-200k)进行监督微调,再针对高难度样本进行RL训练 [33][36][41] 性能表现 - 在VL Reward-Bench等测评基准上准确率提升8.4%-14.3%,推理时采样15次投票策略可使准确率从71%跃升至86.47% [11][38][42] - 输出分析内容平均长度减少15%,显示推理效率提升 [44] - "Any Correct"策略在K=15时接近100%准确率,显示模型潜力 [42] 方法论 问题重构 - 将奖励模型训练转化为基于规则的RL任务:模型需判断两个答案的优劣并给出分析 [8] - 设计三重奖励函数:格式奖励(规范输出结构)、结果奖励(匹配人类偏好)、一致性奖励(分析逻辑自洽) [40] 数据策略 - 构建R1-Reward-200k数据集,标注样本难度(GPT-4o尝试次数),RL阶段专注训练高难度样本 [11][36][41] - 冷启动解决方案:通过GPT-4o生成带思考链的SFT数据,缓解长思考链冷启动问题 [33][34] 实验发现 - 模型展现人类式反思能力:能自主发现计算错误并修正 [43] - 投票机制显著提升性能,验证RL在多模态奖励建模中的潜力 [39][42] - 一致性奖励有效解决"精神分裂"问题(分析结论与最终答案矛盾) [30][31] 应用前景 - 为RL在多模态奖励模型中的应用提供新范式 [45] - 开源模型与代码(Hugging Face/GitHub)推动行业研究 [46] - 未来可探索更先进的推理时扩展方法和训练策略优化 [45]