Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

核心观点 - 强化学习训练大模型推理能力时，仅20%的高熵token能支撑整个训练效果，甚至优于使用全部token训练的效果 [1][6][15] - 高熵token在推理中扮演"逻辑连接器"角色，对模型性能提升至关重要，而低熵token贡献微乎其微甚至可能产生副作用 [11][18][20] - 该方法在Qwen3系列模型上实现显著性能提升，并展现出规模效应和泛化优势 [2][16][22] 高熵token的发现与特性 - 链式思考推理中，token熵分布呈现独特模式：50%以上token熵值低于0.01，仅20%token熵值大于0.672 [9][10] - 高熵token（分叉token）功能特殊，如"wait"、"thus"等逻辑连接词，决定推理路径方向；低熵token多为确定性内容如词缀或代码片段 [11] - 实验证实：提高高熵token解码温度可改善推理性能，降低温度则导致性能下降 [13] 训练方法与性能提升 - RLVR训练中仅保留top 20%高熵token策略梯度，Qwen3-32B在AIME'24分数提升7.71分，响应长度增加2553.39 token [15][17] - 反向实验显示：仅用80%低熵token训练会导致性能急剧下降 [17][18] - 规模效应明显：32B模型提升最大（AIME'24 +7.71分），14B次之（+5.21分），8B最小（+1.25分） [16][17][22] 机制分析与理论突破 - 高熵token的不确定性有助于模型探索推理路径，低熵token的确定性限制探索能力 [20] - RLVR训练后，模型与base model在高熵token位置重叠率仍保持86.67%，显示RLVR保留预训练模型的熵判断模式 [24][25] - 初始熵越高的token在RLVR训练后熵增幅越大，低熵token几乎不变 [25] 应用与泛化价值 - 数学数据集训练的模型在编程任务LiveCodeBench上表现优异，显示高熵token与泛化能力密切相关 [22] - 高熵token可能是强化学习泛化优于监督微调的关键因素，后者易导致分叉token熵降低 [26][27] - 传统强化学习假设动作熵均匀分布，而大模型推理需整合先验知识，输出包含高低熵token混合 [27]