RLVR

搜索文档
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
36氪· 2025-06-20 20:00
超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向,Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题,暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性,认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径:纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升,但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值,非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险,行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈,部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现,当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限,未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题,需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向,OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室,投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛,争夺最优训练环境设计 [33]
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 18:28
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 近期arxiv最热门论文, Qwen&清华LeapLab 团队最新成果: 在强化学习训练大模型推理能力时, 仅仅20%的高熵token就能撑起整个训练效果 ,甚至比用全部token训练还要好。 团队用这个发现在Qwen3-32B上创造了新的SOTA记录:AIME'24上达到63.5分,AIME'25上达到56.7分, 这是600B参数以下直接从base模型训练的最高分。 最大响应长度从20k延长到29k,AIME'24的分数更是飙升到了68.1分。 揭开Chain-of-Thought的熵分布密码 要理解这项研究,需要先从一个有趣的观察说起: 团队发现,当大模型进行链式思考(Chain-of-Thought)推理时,token的熵分布呈现出一个独特的模式: 大部分token的熵都很低,只有少 数token表现出高熵特征 。 具体来说,超过50%的token熵值低于0.01,而只有20%的token熵值大于0.672。 经典的二八法则(或帕累托法则)指出,通常80%的结果由20%的关键因素驱动,但剩下80%也是不能轻易舍弃的。 但是在大模型强化学习这里,80 ...
奖励是假的,能让Qwen提升25%性能却是真的!
量子位· 2025-05-29 09:08
RLVR技术突破 - 使用虚假奖励信号进行RLVR训练仍能显著提升Qwen模型性能 在MATH-500基准上绝对准确率提升约25% 与真实奖励效果仅相差几个百分点[1][3][18] - 虚假奖励类型包括错误标签奖励(提升24.6%)、随机奖励(提升21.4%)和格式奖励 均能激发模型推理能力提升[18][20] - 该现象颠覆传统认知 表明RLVR性能提升可能独立于奖励信号正确性 而是通过激活预训练中的潜在推理能力实现[4][12] Qwen模型特异性表现 - 虚假奖励增益仅见于Qwen2 5-Math系列模型 其他模型如Llama、OLMo2-7B性能无变化或下降[19][24] - Qwen2 5-Math-7B独特依赖代码推理策略 65%回答包含Python代码片段 虚假奖励RLVR可将其频率提升至90%[23][27] - 模型差异源于预训练策略 Qwen的代码推理行为与答案准确率正相关 但该模式在其他模型中可能损害性能[23][25] 实验设计与机制分析 - 团队设计五类奖励函数梯度测试 包括真实奖励、多数投票奖励、格式奖励、随机奖励和错误奖励 形成监督强度递减序列[20] - GRPO方法裁剪偏差可能诱导随机奖励产生有益训练信号 增加代码推理行为[28] - 研究推测错误推理+正确答案或正确推理+错误答案的组合可能在其他模型中复制类似增益[32] 行业影响与研究方向 - 现有RLVR研究需扩展至非Qwen模型验证 避免单一模型优化带来的局限性[33] - 技术社区反应强烈 建议RLVR研究员重新评估围绕奖励函数构建的研究路径[6] - 项目由华盛顿大学NLP团队主导 开源代码与论文提供完整实验复现路径[34]
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 16:09
大模型强化学习有效性研究 - 核心观点:虚假奖励(随机/错误信号)在Qwen-Math模型上能显著提升数学推理能力,但对其他模型无效,挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现 虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%,错误奖励提升25%,接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%,但损害Llama3和OLMo2性能(分别降低7 3%和5 3%)[23] 模型特异性 - 虚假奖励仅对Qwen系列有效:Qwen-Math-7B代码推理频率达65%,RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益,甚至出现性能下降[17][23] 机制分析 预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力(Python代码生成频率与性能强相关)[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应",使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时,单问题性能提升55%(虚假奖励)至60 2%(真实奖励)[36] - 模型总增益:Qwen2 5-Math-7B提升23 5%,1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型,结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证,并优先分析预训练获得的推理策略[50]
腾讯研究院AI速递 20250526
腾讯研究院· 2025-05-25 23:57
生成式AI 一、 H20之后,英伟达全新「阉割版」的Blackwell GPU曝光 1. 英伟达因美国出口管制在中国AI芯片市场份额从95%暴跌至50%,被国产芯片抢占市场; 2. 为应对困局推出新款阉割版Blackwell GPU,售价6500-8000美元,远低于H20的1-1.2万 美元; 3. 新芯片采用GDDR7内存技术,内存带宽约1.7TB/秒,以符合出口管制限制要求。 https://mp.weixin.qq.com/s/62VnkP-TrmhSd18CmDLWBA 二、 Claude 4如何思考?资深研究员回应,RLVR已得到验证 1. Claude 4采用可验证奖励强化学习(RLVR)范式,在编程和数学等有清晰反馈信号的领域取 得突破; 2. 当前AI Agent发展受限于高可靠性不足,但预计明年将出现能独立完成实际工作的软件工 程Agent; 3. 研究员预测到2026年底,AI将具备足够的"自我意识",能执行复杂任务并判断自身能力边 界。 https://mp.weixin.qq.com/s/0mQ9xEKdGiSMsFqyXMJVgg https://mp.weixin.qq.com/ ...
Claude 4如何思考?资深研究员回应:RLHF范式已过,RLVR已在编程/数学得到验证
量子位· 2025-05-24 14:30
白交 发自 凹非寺 量子位 | 公众号 QbitAI 惊艳全球的Claude 4,但它到底是如何思考? 来自Anthropic两位研究员最新一期博客采访,透露了很多细节。 这两天大家可以说是试玩了不少,有人仅用一个提示就搞定了个浏览器Agent,包括API和前端……直接一整个大震惊,与此同时关于 Claude 4可能有意识并试图干坏事的事情同样被爆出。 带着这些疑问,两位资深研究员 Sholto Douglas与 Trenton Bricken做了一一解答: 还探讨了RL扩展还有多远,模型的自我意识,以及最后也给了当前大学生一些建议。 可验证奖励强化学习RLVR的范式已在编程和数学领域得到证明,因为这些领域很容易获得此类清晰的信号。 AI获诺奖比获普利策小说奖更容易。让AI生成一篇好文章, 品味是个相当棘手的问题 。 明年这个时候,真正的软件工程Agent将开始进行实际工作 网友评价:这期独特见解密度很高。 另外还有人发现了华点:等等,你们之前都来自DeepMind?? | 0xmusashi � @zeroXmusashi · May 23 | | | --- | --- | | damn they bot ...
仅需1个数据,就能让大模型的数学推理性能大大增强?
机器之心· 2025-05-09 17:02
论文发现,只在 RLVR 训练中使用一个训练数据(称作 1-shot RLVR),就可以在 MATH500 上,将 Qwen2.5-Math-1.5B 的表现从 36.0% 提升到 73.6%,以及把 Qwen2.5-Math-7B 的表现从 51.0% 提升到 79.2% 。 这个表现和使用 1.2k 数据集(包括这一个数据)的 RLVR 效果差不多。 使用两个训练样本的 RLVR 甚至略微超过了使用 1.2k 数据集(称作 DSR-sub)的表现, 和使用 7.5k MATH 训练集的 RLVR 表现相当。这种表现可以在 6 个常用的数学推理任务上都可以观察到。 本文第一作者王宜平是华盛顿大学的博士生,其导师、通讯作者杜少雷为华盛顿大学Assistant Professor;另外两位通讯作者 Yelong Shen 和 Shuohang Wang 是 Microsoft GenAI 的Principal Researcher。 最近, 大型语言模型(LLM)在推理能力方面取得了显著进展,特别是在复杂数学任务上。推动上述进步的关键方法之一就是带可验证奖励的强化学习 (Reinforcement Learni ...