Workflow
多模态奖励模型
icon
搜索文档
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
机器之心· 2025-05-12 12:31
机器之心发布 机器之心编辑部 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战, 尤其是如何通过强化学习对奖励模型引入长期推理能力。 来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce++)用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚 至直接崩掉。本文的出发点就是要解决这些问题,探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工 作 MM-RLHF (ICML 2025),本文进一步提出了 R1-Reward,在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升,且随着 inference sampling 的数目增多还能进一步增长。 R1-Reward 不仅在学术上展现了巨大价值,还在快手的实际业务场 ...
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
量子位· 2025-05-08 14:58
R1-Reward团队 投稿 量子位 | 公众号 QbitAI 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用: …… 而强化学习(RL)在理论上能够对MRM引入长期推理能力,使MRM更加高效。 但如果直接把现有的RL算法(比如Reinforce++)用到训练MRM上,就会出现很多状况,比如,训练过程会 很不稳定 、甚至可能 直接崩掉 : 现在,来自中科院自动化所、清华大学、快手和南京大学的研究团队,在探索如何 利用强化学习来稳定、有效地提升多模态奖励模型的长时 推理能力 方面,取得了新进展: 基于多模态强化学习的工作MM-RLHF(ICML 2025),进一步推出了 R1-Reward 模型。 在现有的多模态奖励模型benchmark的基础上,相比于当前最先进的SOTA模型,实现 5%-15% 的提升。 且随着inference sampleing的数目增多还能进一步增长! 主要贡献 在训练阶段,它可以提供稳定的reward; 在评估阶段,它可以选择更好的sample结果; 单独使用时,它可以直接作为evaluator; 1. 重新定义问题 作者把训练奖励模型这个问 ...