奖励模型

搜索文档
人机协同筛出2600万条数据,七项基准全部SOTA,昆仑万维开源奖励模型再迎新突破
机器之心· 2025-07-04 10:36
机器之心报道 编辑:杜伟、泽南 大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。 基于人类反馈的强化学习(RLHF)就是用来解决这个问题的,其中的奖励模型 (Reward Model, RM)扮演着重要的裁判作用,它专门负责给 LLM 生成 的内容打分,告诉模型什么是好,什么是不好,可以保证大模型的「三观」正确。 因此,奖励模型对大模型能力来说举足轻重:它既需要能够准确进行评判,又需要足够通用化,覆盖多个知识领域,还需要具备灵活的判断能力,可以处理 多种输入,并具备足够的可扩展性。 7 月 4 日,国内 AI 科技公司昆仑万维发布了新一代奖励模型 Skywork-Reward-V2 系列,把这项技术的上限再次提升了一截。 Skywork-Reward-V2 系列共包含 8 个基于不同基座模型和不同大小的奖励模型,参数规模从 6 亿到 80 亿不等,它在七大主流奖励模型评测榜单上全部 获得了第一。 Skywork-Reward-V2 系列模型在主流基准上的成绩。 与此同时,该系列模型展现出了广泛的适用性,它在多个能力维度上表现出色,包括对人类偏好的通用对齐、客观正确性、安全性、风 ...
DeepSeek-R2为什么还没发?
量子位· 2025-06-27 16:09
DeepSeek-R2项目延期原因 - 核心观点:DeepSeek-R2因CEO对模型表现不满及算力资源短缺导致多次延期[1][2] - 研发受阻主因包括:英伟达H20芯片供应不足(R1训练消耗3万块H20、1万块H800和1万块H100)[3][4] 技术迭代与市场预期 - V3-0324版本升级被实测证实性能显著提升,引发市场对R2的早期预期(2023年12月V3发布后即开始酝酿)[5][6][7] - R1模型基于V3-Base架构开发,强化了V3与R系列的技术关联性[8][9] - 4月DeepSeek联合清华发布SPCT论文,提出通过在线RL优化奖励模型的方法,但未直接推动R2发布[12][13][14] 时间线与关键事件 - 原预期节奏:参照R1在V3发布1个月后上线,市场推测R2将于2024年4月面世[11] - 实际进展:4月仅泄露参数(传1.2T参数、5.2PB数据),5月发布解决硬件瓶颈的论文及R1-0528版本(LiveCodeBench表现接近OpenAI o3-high)[17][20][21][23][24] 行业反馈与技术推测 - 用户对延期态度分化:部分认为"值得等待",部分推测需等待V4版本发布[28][30] - 当前技术瓶颈:V3可能已达性能极限,需新一代基础模型支撑R2开发[31][32]
Cursor技术负责人详解AI编程三大难题:奖励信号、过程优化与经验积累 | Jinqiu Select
锦秋集· 2025-05-31 10:37
AI编程的下一步在哪里?Cursor技术负责人的深度思考 让AI生成看起来像代码的文本很容易,但让它真正理解问题、选择合适的工具、经过多轮调试最终解决实际 需求——这才是真正的编程,也是整个行业正在努力突破的方向。 在最新访谈中,Cursor的技术负责人深入剖析了AI编程的根本性困境。 https://www.youtube.com/watch?v=sLaxGAL_Pl0&t=21s Cursor认为,AI编程不只是生成语法正确的代码片段,而是要完成一个复杂的认知过程。 编程与数学等领域的根本区别在于"动作空间"的庞大。解数学题时,模型可以通过推理逐步逼近答案,但在编 程中,推理过程本身就已经嵌入在代码里。更关键的是,真正的编程需要"编写代码→调用工具→获取反馈→ 调整代码"的多轮迭代。 奖励信号的设计成为核心难题。用"通过测试"作为奖励看似合理,但模型会找捷径绕过核心逻辑。它生成了能 运行的代码,却没有真正理解和解决问题。即使加入代码质量等多维度指标,稀疏奖励的问题依然存在——复 杂任务可能需要上千次尝试才获得一次成功信号。 业界寄予厚望的过程奖励模型(PRMs)同样遭遇挫折。这种试图在每一步都给出评分的方 ...
DeepSeek R1模型完成“小版本试升级”,编程、逻辑理解上了一个层次!
华尔街见闻· 2025-05-29 08:57
周三,DeepSeek在微信群发布帖子称,DeepSeek R1模型已完成"小版本试升级",欢迎前往官方网页、APP、小程序测试(打开深度思考),API 接口和使 用方式保持不变。 DeepSeek R1模型在语义理解精准性、复杂逻辑推理、长文本处理稳定性等方面进行了强化。 DeepSeek并未提供本次更新的更多细节。有网友测评后称,感觉模型的理解能力上了一个层次: 感觉模型的理解能力上了一个层次,比如激活参数部分,R1可以制作交互动画来展示,另外关键信息的逻辑也非常清晰。 编程能力也大幅提升,有网友测评后感叹,太吓人了,1000多行代码一次搞定,没有bug。 还有网友称,编程能力可以和"编程新王"Claude 4一较高下。 随着人工智能竞争升级,DeepSeek发布R1模型更新版。 R1的异军突起引发了全球科技股暴跌,因为投资者开始质疑,是否还需要像微软等硅谷巨头那样投入巨资构建突破性的AI模型和AI服务。 前几个月R2频传要发布 证券时报指出,自以上V3模型的小版本升级之后,DeepSeek的热度就开始下降,使用率也有所回落,并且引发了一些质疑。当前,市场最关心的依然是R2模 型发布。 今年2月,有媒体称 ...
RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
机器之心· 2025-05-12 12:31
机器之心发布 机器之心编辑部 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evaluator。尽管近期强化学习(RL)在传统视觉任务和多模态推理任务中取得了显著进展,但其在奖励建模中的应用仍然受到挑战, 尤其是如何通过强化学习对奖励模型引入长期推理能力。 来自快手、中科院、清华、南大的研究团队发现,直接把现有的 RL 算法(比如 Reinforce++)用到训练 MRM 上,会遇到很多问题,比如训练过程很不稳定,甚 至直接崩掉。本文的出发点就是要解决这些问题,探索如何利用强化学习来稳定、有效地提升多模态奖励模型的长时推理能力。基于团队在多模态强化学习的工 作 MM-RLHF (ICML 2025),本文进一步提出了 R1-Reward,在现有的多模态奖励模型 benchmark 上相比于 SOTA 模型有 5%-15% 的提升,且随着 inference sampling 的数目增多还能进一步增长。 R1-Reward 不仅在学术上展现了巨大价值,还在快手的实际业务场 ...
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
量子位· 2025-05-08 14:58
R1-Reward团队 投稿 量子位 | 公众号 QbitAI 多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用: …… 而强化学习(RL)在理论上能够对MRM引入长期推理能力,使MRM更加高效。 但如果直接把现有的RL算法(比如Reinforce++)用到训练MRM上,就会出现很多状况,比如,训练过程会 很不稳定 、甚至可能 直接崩掉 : 现在,来自中科院自动化所、清华大学、快手和南京大学的研究团队,在探索如何 利用强化学习来稳定、有效地提升多模态奖励模型的长时 推理能力 方面,取得了新进展: 基于多模态强化学习的工作MM-RLHF(ICML 2025),进一步推出了 R1-Reward 模型。 在现有的多模态奖励模型benchmark的基础上,相比于当前最先进的SOTA模型,实现 5%-15% 的提升。 且随着inference sampleing的数目增多还能进一步增长! 主要贡献 在训练阶段,它可以提供稳定的reward; 在评估阶段,它可以选择更好的sample结果; 单独使用时,它可以直接作为evaluator; 1. 重新定义问题 作者把训练奖励模型这个问 ...