多模态奖励模型 - 财报，业绩电话会，研报，新闻

多模态奖励模型

搜索文档

机器之心· 2025-05-12 12:31

机器之心发布机器之心编辑部多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用，在训练阶段可以提供稳定的 reward，评估阶段可以选择更好的 sample 结果，甚至单独作为 evaluator。尽管近期强化学习（RL）在传统视觉任务和多模态推理任务中取得了显著进展，但其在奖励建模中的应用仍然受到挑战，尤其是如何通过强化学习对奖励模型引入长期推理能力。来自快手、中科院、清华、南大的研究团队发现，直接把现有的 RL 算法（比如 Reinforce++）用到训练 MRM 上，会遇到很多问题，比如训练过程很不稳定，甚至直接崩掉。本文的出发点就是要解决这些问题，探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工作 MM-RLHF (ICML 2025)，本文进一步提出了 R1-Reward，在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升，且随着 inference sampling 的数目增多还能进一步增长。 R1-Reward 不仅在学术上展现了巨大价值，还在快手的实际业务场 ...

强化学习

多模态奖励模型

Artificial Intelligence

R1-Reward

强化学习

多模态奖励模型

Artificial Intelligence

R1-Reward

突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

量子位· 2025-05-08 14:58

R1-Reward团队投稿量子位 | 公众号 QbitAI 多模态奖励模型（MRMs）在提升多模态大语言模型（MLLMs）的表现中起着至关重要的作用： …… 而强化学习（RL）在理论上能够对MRM引入长期推理能力，使MRM更加高效。但如果直接把现有的RL算法（比如Reinforce++）用到训练MRM上，就会出现很多状况，比如，训练过程会很不稳定、甚至可能直接崩掉：现在，来自中科院自动化所、清华大学、快手和南京大学的研究团队，在探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力方面，取得了新进展：基于多模态强化学习的工作MM-RLHF（ICML 2025），进一步推出了 R1-Reward 模型。在现有的多模态奖励模型benchmark的基础上，相比于当前最先进的SOTA模型，实现 5%-15% 的提升。且随着inference sampleing的数目增多还能进一步增长！主要贡献在训练阶段，它可以提供稳定的reward；在评估阶段，它可以选择更好的sample结果；单独使用时，它可以直接作为evaluator； 1. 重新定义问题作者把训练奖励模型这个问 ...

多模态奖励模型

强化学习

Artificial Intelligence

R1-Reward

多模态奖励模型

强化学习

Artificial Intelligence

R1-Reward