多模态奖励模型R1-Reward的核心创新 - 提出StableReinforce算法解决现有RL方法训练不稳定的问题,通过Pre-CLIP策略和优势过滤器(Advantage Filter)优化数值计算过程[21] - 引入一致性奖励(Consistency Reward)机制,使用裁判模型(Qwen2.5-VL-7B-Instruct)验证分析过程与最终答案的逻辑一致性[25][26] - 采用渐进式训练策略:先用GPT-4o生成20万条带思考链的SFT数据,再筛选高难度样本进行RL训练[27][30][39] 技术实现细节 - 将奖励建模转化为基于规则的RL任务,设计包含格式奖励、结果奖励和一致性奖励的复合奖励函数[26][31] - 改进PPO/Reinforce++算法存在的两大问题:概率比值(ratio)计算导致的数值溢出,以及优势归一化引发的训练不稳定[18][19] - 训练数据集R1-Reward-200k包含20万条多模态偏好数据,通过GPT-4o标注难度分级[12][27] 性能表现 - 在VL Reward-Bench等基准测试中超越SOTA模型8.4%-14.3%,推理时采用多次采样投票策略可进一步提升至85.3%(K=5)和86.47%(K=15)[12][35] - 模型输出长度减少15%显示推理效率提升,展现出类似人类的反思纠错能力[12][36] - 已在快手短视频/电商/直播场景实现工业化应用,包括标签识别、多视频相关性判断等[2] 算法比较 - PPO通过min/clip操作限制策略更新幅度,但直接应用于奖励模型会导致数值不稳定[15][17] - Reinforce++在PPO基础上增加KL散度惩罚和奖励归一化,但仍存在冷启动问题[16][19] - StableReinforce创新性地在指数计算前进行Pre-CLIP,并采用3-sigma规则过滤异常优势值[21] 未来方向 - 探索更先进的推理时扩展方法超越简单投票策略[38] - 优化训练策略以进一步释放模型潜力,如Any Correct策略在K=15时接近100%准确率[35] - 增强奖励模型基础能力,解决长思考链冷启动问题[27][30]
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
机器之心·2025-05-12 12:31