Workflow
可验证奖励强化学习(RLVR)
icon
搜索文档
这些大神在Meta的论文看一篇少一篇了
36氪· 2025-11-17 17:52
研究核心观点 - 研究团队揭示了大模型强化学习训练中的一个关键现象:尽管强化学习能带来巨大的性能提升,但其参数更新却极为稀疏,这背后是由一种固定的模型条件优化偏差机制所驱动[1][3] - 团队提出了“三门理论”来解释RLVR训练的内在机制,阐明参数更新如何被约束、引导并最终定位到特定的参数区域[3][7] 参数更新稀疏性发现 - 对包括Qwen系列和DeepSeek-R1-Distill-Qwen在内的多个开源模型的分析显示,经过超过3000步长时间RL训练后,RL参数更新的稀疏度高达36%到92%,而监督微调的稀疏度仅为0.6%到18.8%,相差一个数量级[5][6] - 具体数据显示,Qwen3-30B-A3B模型经过GRPO算法在数学数据上训练后,稀疏度达到91.7%;而Qwen3-8B-Base模型的SFT稀疏度仅为0.6%[6] 三门理论机制解析 - 第一门KL锚定机制通过策略梯度更新的KL界限确保每步相对于当前策略的漂移很小,限制了参数的移动范围,即使在无显式KL正则项的DAPO算法中,比例裁剪技巧仍会施加O(ε²)的KL界限[8] - 第二门模型几何机制指出预训练模型具有高度结构化的几何特性,在KL约束下,RL更新倾向于保持模型的原始权重结构,自然偏向于优化景观中的低曲率方向[9] - 第三门精度过滤机制揭示bfloat16的有限精度只有7位尾数,小于单位最低位阈值的变化无法表示,导致在RL不愿施加大改变区域的微小更新被隐藏,表现为稀疏性[11] 实验验证与发现 - 通过奇异值分解分析发现,RL更新与主成分权重的重叠度始终低于随机水平,表明RL强烈倾向于避开这些权重,而与低幅度权重显示出超随机的重叠[11] - 因果性验证实验通过正交旋转和头部置换故意扰乱模型几何结构,结果显示在被干预的层中更新重叠度降至随机水平,证明预训练模型的几何结构是优化偏差的来源[13] - 光谱分析表明RLVR检查点在顶部主成分内表现出明显稳定的谱,跨层的主子空间旋转一致较小,谱漂移最小,奇异值曲线几乎与基础模型相同[14] 对参数高效微调方法的启示 - 研究发现许多SFT时代的参数高效微调方法在RLVR中迁移效果很差,仅更新主成分权重会产生最差的优化轨迹,KL曲线上升缓慢,显示过度干预和退化的训练动态[17] - 对于LoRA变体,主成分定向的PiSSA在用于匹配全参数性能的较高学习率下经常变得不稳定并提前崩溃,因为强制沿主方向更新会触及RLVR倾向于避免的高曲率区域[17]
不改模型也能提升推理性能?ICLR投稿提出测试时扩展新范式OTV
量子位· 2025-10-23 08:08
文章核心观点 - 提出一种名为单token验证(OTV)的新机制,旨在不改变原始模型参数的前提下,实现对大语言模型推理过程的实时自主监控[2] - OTV通过利用模型内部的键值缓存(KV Cache)和轻量级的LoRA角色向量,使模型能够边推理边判断自身推理的正确性[8][9] - 该方法在多个模型规模和高难度数学推理数据集上的实验显示,其准确率全面领先于现有主流基线方法,并能显著降低计算开销[14][15][17] 现有主流范式的局限性 - LoRA微调虽参数高效且便于部署,但依赖详细监督数据并可能引发遗忘效应[3] - 后置验证器通过对生成结果进行质量筛选来增强可信度,但纠偏滞后且无法窥探内部推理过程[4] - RLVR(可验证奖励强化学习)节省标注成本,但流程复杂、计算代价高昂,难以普及[6] OTV机制的技术原理 - 核心是利用Transformer架构的键值缓存(KV Cache)作为完整的推理轨迹记录,捕捉模型内部动态最丰富的信息源[9] - 通过插入特殊"ToT"(Token of Truth)token,使其与整个序列的KV缓存进行注意力交互,从而回顾整条推理路径[9][11] - 内部验证器由一个LoRA实现的轻量角色向量和一个轻量回归头构成,输出0~1之间的正确性评分[9][10] OTV的训练与效率 - 训练目标以最终答案正确性为信号,为每个生成token分配启发式伪标签(正确路径得分从0.5线性增至1,错误路径递减至0)[10] - 训练流程高度并行,计算成本与传统LoRA微调相当[10] - 验证一次仅相当于模型多生成一个token的计算量,过程极其高效[9] 实验验证结果 - 在Qwen3-4B、Qwen3-8B、DAPO-Qwen-32B等模型上,使用AIME数据集测试,OTV在加权多数投票设置下稳定超越所有基线[14][15] - 具体表现为:在Qwen3-4B-Instruct-2507模型上,AIME24准确率达83.33%,AIME25达69.32%;在DAPO-Qwen-32B模型上,AIME24达70.83%,AIME25达49.58%[16] - 在高效推理设置下,OTV的"HALF 300"策略在计算量减少近90%的前提下,仍能保持最优或接近最优的准确率[17][19] OTV的优势与潜力 - 评分信号更稳定、真实且具有区分度,能清晰区分正确(红色轨迹稳定上升)与错误(绿色轨迹被压制)的推理路径[20][22][24] - 赋予模型动态控制计算开销的能力,可实时淘汰低质量路径,节省不必要的计算[17] - 未来潜力包括扩展为引入"不确定"状态的三元系统、具备安全控制潜力以终止高风险路径生成,以及推广至不同架构模型[25][26]
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
36氪· 2025-06-20 20:00
超级智能发展路径 - 超级智能是超越AGI和人类通用能力的更高维度AI发展方向,Meta等头部公司正投入巨资追求这一目标 [1][3] - OpenAI CEO认为构建超级智能是工程问题而非科学问题,暗示已有可行路径 [1][3] - Meta研究员质疑当前主流LLM+RL路径的有效性,认为无法实现超级智能 [1][2] 技术实现争议 - 构建超级智能的三种可能路径:纯监督学习(SL)、人类验证的强化学习(RL)、自动验证器的RL [2] - 当前LLM在训练分布内任务表现持续提升,但难以发展为单一超级智能模型 [2][34] - 文本数据具有特殊价值,非文本数据(图像/视频等)尚未证明能提升模型整体性能 [6][7] 数据与规模挑战 - 互联网文本数据面临枯竭风险,行业正全力挖掘剩余数据(如转录YouTube视频) [8][19] - 模型规模扩展遭遇硬件和电力瓶颈,部分公司尝试分布式训练甚至收购核电站 [18][19] - 参数规模突破10^19的假设难以实现,当前最大模型约千亿参数级别 [17][18][19] 学习方法比较 - 监督学习(SL)面临规模扩展极限,未来3-4年可能仅能扩展10倍 [19][20] - 强化学习(RL)存在冷启动问题,需结合SL解决 [22][23] - RLVR(可验证奖励强化学习)成为新方向,OpenAI已展示在数学题上的成功案例 [32][33] 行业竞争格局 - Meta建立秘密"超级智能"实验室,投入数十亿美元资金 [3] - OpenAI、Anthropic和Google DeepMind均公开超级智能研发目标 [3] - 行业可能进入RL任务集军备竞赛,争夺最优训练环境设计 [33]
LLM加RL遭质疑:故意用错奖励,数学基准也显著提升,AI圈炸了
机器之心· 2025-05-28 16:09
大模型强化学习有效性研究 - 核心观点:虚假奖励(随机/错误信号)在Qwen-Math模型上能显著提升数学推理能力,但对其他模型无效,挑战了强化学习依赖高质量监督信号的传统认知[5][9][16] 实验发现 虚假奖励效果 - 随机奖励使Qwen2 5-Math-7B在MATH-500准确率提升21%,错误奖励提升25%,接近真实奖励的28 8%增幅[5] - 仅要求答案包含`\boxed{}`格式的虚假奖励使Qwen2 5-1 5B准确率绝对提升49 9%,但损害Llama3和OLMo2性能(分别降低7 3%和5 3%)[23] 模型特异性 - 虚假奖励仅对Qwen系列有效:Qwen-Math-7B代码推理频率达65%,RLVR训练后提升至90%以上[28][34] - Llama3和OLMo2等模型无法从虚假奖励中获益,甚至出现性能下降[17][23] 机制分析 预训练策略影响 - Qwen-Math通过RLVR强化了预训练已有的代码推理能力(Python代码生成频率与性能强相关)[27][34] - 虚假奖励通过GRPO裁剪触发"集中效应",使模型聚焦现有优势策略而非学习新能力[46] 策略转换收益 - Qwen-Math从自然语言推理转向代码推理时,单问题性能提升55%(虚假奖励)至60 2%(真实奖励)[36] - 模型总增益:Qwen2 5-Math-7B提升23 5%,1 5B版本提升28 5%[37] 方法论启示 - 当前RLVR研究过度依赖Qwen模型,结论可能无法泛化至其他架构[21][25] - 建议未来研究需跨模型验证,并优先分析预训练获得的推理策略[50]