RLVR技术突破 - 使用虚假奖励信号进行RLVR训练仍能显著提升Qwen模型性能 在MATH-500基准上绝对准确率提升约25% 与真实奖励效果仅相差几个百分点[1][3][18] - 虚假奖励类型包括错误标签奖励(提升24.6%)、随机奖励(提升21.4%)和格式奖励 均能激发模型推理能力提升[18][20] - 该现象颠覆传统认知 表明RLVR性能提升可能独立于奖励信号正确性 而是通过激活预训练中的潜在推理能力实现[4][12] Qwen模型特异性表现 - 虚假奖励增益仅见于Qwen2 5-Math系列模型 其他模型如Llama、OLMo2-7B性能无变化或下降[19][24] - Qwen2 5-Math-7B独特依赖代码推理策略 65%回答包含Python代码片段 虚假奖励RLVR可将其频率提升至90%[23][27] - 模型差异源于预训练策略 Qwen的代码推理行为与答案准确率正相关 但该模式在其他模型中可能损害性能[23][25] 实验设计与机制分析 - 团队设计五类奖励函数梯度测试 包括真实奖励、多数投票奖励、格式奖励、随机奖励和错误奖励 形成监督强度递减序列[20] - GRPO方法裁剪偏差可能诱导随机奖励产生有益训练信号 增加代码推理行为[28] - 研究推测错误推理+正确答案或正确推理+错误答案的组合可能在其他模型中复制类似增益[32] 行业影响与研究方向 - 现有RLVR研究需扩展至非Qwen模型验证 避免单一模型优化带来的局限性[33] - 技术社区反应强烈 建议RLVR研究员重新评估围绕奖励函数构建的研究路径[6] - 项目由华盛顿大学NLP团队主导 开源代码与论文提供完整实验复现路径[34]
奖励是假的,能让Qwen提升25%性能却是真的!
量子位·2025-05-29 09:08