高熵token - 财报，业绩电话会，研报，新闻

高熵token

搜索文档

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

量子位· 2025-06-05 18:28

核心观点 - 强化学习训练大模型推理能力时，仅20%的高熵token能支撑整个训练效果，甚至优于使用全部token训练的效果 [1][6][15] - 高熵token在推理中扮演"逻辑连接器"角色，对模型性能提升至关重要，而低熵token贡献微乎其微甚至可能产生副作用 [11][18][20] - 该方法在Qwen3系列模型上实现显著性能提升，并展现出规模效应和泛化优势 [2][16][22] 高熵token的发现与特性 - 链式思考推理中，token熵分布呈现独特模式：50%以上token熵值低于0.01，仅20%token熵值大于0.672 [9][10] - 高熵token（分叉token）功能特殊，如"wait"、"thus"等逻辑连接词，决定推理路径方向；低熵token多为确定性内容如词缀或代码片段 [11] - 实验证实：提高高熵token解码温度可改善推理性能，降低温度则导致性能下降 [13] 训练方法与性能提升 - RLVR训练中仅保留top 20%高熵token策略梯度，Qwen3-32B在AIME'24分数提升7.71分，响应长度增加2553.39 token [15][17] - 反向实验显示：仅用80%低熵token训练会导致性能急剧下降 [17][18] - 规模效应明显：32B模型提升最大（AIME'24 +7.71分），14B次之（+5.21分），8B最小（+1.25分） [16][17][22] 机制分析与理论突破 - 高熵token的不确定性有助于模型探索推理路径，低熵token的确定性限制探索能力 [20] - RLVR训练后，模型与base model在高熵token位置重叠率仍保持86.67%，显示RLVR保留预训练模型的熵判断模式 [24][25] - 初始熵越高的token在RLVR训练后熵增幅越大，低熵token几乎不变 [25] 应用与泛化价值 - 数学数据集训练的模型在编程任务LiveCodeBench上表现优异，显示高熵token与泛化能力密切相关 [22] - 高熵token可能是强化学习泛化优于监督微调的关键因素，后者易导致分叉token熵降低 [26][27] - 传统强化学习假设动作熵均匀分布，而大模型推理需整合先验知识，输出包含高低熵token混合 [27]

Artificial Intelligence

Artificial Intelligence

Qwen3-32B

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

量子位· 2025-06-05 18:28

梦晨发自凹非寺量子位 | 公众号 QbitAI 近期arxiv最热门论文， Qwen&清华LeapLab 团队最新成果：在强化学习训练大模型推理能力时，仅仅20%的高熵token就能撑起整个训练效果，甚至比用全部token训练还要好。团队用这个发现在Qwen3-32B上创造了新的SOTA记录：AIME'24上达到63.5分，AIME'25上达到56.7分，这是600B参数以下直接从base模型训练的最高分。最大响应长度从20k延长到29k，AIME'24的分数更是飙升到了68.1分。揭开Chain-of-Thought的熵分布密码要理解这项研究，需要先从一个有趣的观察说起：团队发现，当大模型进行链式思考（Chain-of-Thought）推理时，token的熵分布呈现出一个独特的模式：大部分token的熵都很低，只有少数token表现出高熵特征。具体来说，超过50%的token熵值低于0.01，而只有20%的token熵值大于0.672。经典的二八法则（或帕累托法则）指出，通常80%的结果由20%的关键因素驱动，但剩下80%也是不能轻易舍弃的。但是在大模型强化学习这里，80 ...