揭秘！RLVR/GRPO中那些长期被忽略的关键缺陷

RLVR中组内优势估计的系统性偏差 - 当前大模型在数学推理、代码生成等任务上的突破，其关键技术之一是RLVR，即让模型通过可验证的规则（如答案是否正确）进行自我试错和改进[2] - 在RLVR的实际训练中，广泛采用组内相对优势估计方法，即对同一问题生成一组回答，在组内进行相对比较，以此作为策略梯度更新的核心信号[2] - 然而，最新研究发现，这种组内优势估计存在明确且系统性的方向性偏差：困难题的优势被持续低估，简单题的优势则被不断高估[3] - 这种偏差是组内优势估计设计在统计结构层面固有的内在缺陷，无法通过简单调整超参数来缓解[6] 偏差的理论定义与量化分析 - 组内相对优势估计的数学定义为：对于一个提示，采样G个响应并获得奖励，以组内平均奖励为基线，计算每个响应的相对优势[8][9][10] - 在0-1奖励假设下，策略在给定提示上的期望奖励定义为模型在该提示上回答正确的概率[12] - 题目难度根据期望奖励定义：小于0.5为难题，大于0.5为简单题[17] - 分析聚焦于非退化梯度事件，即排除了所有响应全错或全对（导致梯度消失）的情况，关注实际驱动学习的有效更新区间[18][19][20] - 定理1表明，在非退化事件条件下，组相对优势估计对不同难度的提示表现出系统性偏差[23] - 具体而言：对于困难提示，其期望优势估计系统性低于真实优势（被低估）；对于简单提示，其期望优势估计系统性高于真实优势（被高估）；仅当期望奖励为0.5时，估计才是无偏的[30] - 在常用组大小G=8时，对于困难或简单提示，优势被错误估计的概率超过0.63；当难度加剧时，这一概率上界可提升至0.78甚至100%[32] 偏差的影响与实例 - 偏差导致训练过程表面“稳定收敛”，但模型实际上逐渐回避困难问题、偏好简单样本，破坏了探索与利用的平衡，损害泛化能力和长期训练稳定性[5] - 举例说明：对于一个模型做对概率仅1%的难题，若采样8次且至少有一个正确回答，组内基线会被拉高至至少0.125，导致计算出的优势估计（≤0.875）与真实优势（0.99）产生巨大偏差，即优势被显著低估[26] - 在MATH数据集上的实验显示，对于同一道困难题目，当采样数量从8次提升至128次时，对正确回答的优势估计从2.65增大至3.64，更接近真实值，说明更大的采样组能在一定程度上缓解偏差[28] - 偏差大小与提示难度和采样组大小G相关：提示难度偏离0.5越远（越困难或越简单），偏差越大；在相同难度下，G越小，偏差越大[24][25] 偏差的普适性与解决方案 - 尽管主要分析基于0-1二值奖励，但该偏差现象在更广泛的连续有界奖励模型中同样普遍存在，并非Bernoulli奖励假设的偶然产物[36][37][38] - 系统性偏差导致不同难度提示收到不平衡的梯度信号：困难提示学习进展缓慢，简单提示被过度强化，抑制有效探索[40] - 解决方案是引入自适应调整机制：对于困难提示，应适当放大其估计优势以鼓励探索；对于简单提示，则应抑制其优势以防止过度利用[40] - 论文提出HA-DW算法，通过引入短期历史平均奖励作为动态锚点来判定提示的相对难度，并对优势估计进行自适应重加权[40] - 实验表明，引入优势校正机制后，模型在困难提示上的性能相比原始GRPO提升了3.4%[42] - 这项研究标志着LLM强化学习领域开始从追求工程效果转向关注估计准确性与可解释性，未来偏差分析和估计器正确性很可能成为RLVR的标配[42]