可验证奖励强化学习（RLVR）

搜索文档

36氪· 2025-06-20 20:00

超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向，Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题，暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性，认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径：纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升，但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值，非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险，行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈，部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现，当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限，未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题，需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向，OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室，投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛，争夺最优训练环境设计 [33]

Meta Platforms(US:META)

LLM加RL遭质疑：故意用错奖励，数学基准也显著提升，AI圈炸了

机器之心· 2025-05-28 16:09

大模型强化学习有效性研究 - 核心观点：虚假奖励（随机/错误信号）在Qwen-Math模型上能显著提升数学推理能力，但对其他模型无效，挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%，错误奖励提升25%，接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%，但损害Llama3和OLMo2性能（分别降低7 3%和5 3%）[23] 模型特异性 - 虚假奖励仅对Qwen系列有效：Qwen-Math-7B代码推理频率达65%，RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益，甚至出现性能下降[17][23] 机制分析预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力（Python代码生成频率与性能强相关）[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应"，使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时，单问题性能提升55%（虚假奖励）至60 2%（真实奖励）[36] - 模型总增益：Qwen2 5-Math-7B提升23 5%，1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型，结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证，并优先分析预训练获得的推理策略[50]