大模型强化学习
搜索文档
「上下文学习」之后,腾讯混元第二篇公开研究:精准定位RLVR训练崩溃的“罪魁祸首”Token
机器之心· 2026-02-14 12:54
文章核心观点 - 腾讯混元团队发布了一项针对大模型强化学习后训练阶段工程挑战的研究,重点推出了名为“异常梯度定位器”的基础设施工具,旨在将训练调优从依赖直觉的“玄学”转变为基于数据证据的“科学” [2][3][7] - 该工具能够将训练崩溃时出现的全局梯度突刺问题,精准定位到导致问题的具体词元,从而系统性解决强化学习价值排名训练中的不稳定问题,降低工程壁垒 [2][8] - 公司认为,通过提供此类高可观测性的基础设施工具,可以构建一个由工具指导算法研发的协同范式,为整个社区带来确定性的效率复利,并推动对训练动态底层原理的探索 [6][32][36] 大模型强化学习的工程挑战与现状 - 2025年大模型竞争的主战场已从预训练转向后训练阶段,其中利用可验证反馈信号的强化学习价值排名是实现推理能力跃升的关键,但其落地面临极高的工程门槛 [5] - 大规模强化学习价值排名训练为了追求效率引入了大量近似计算,使其演变成一个高噪声的复杂动态系统,数据分布与模型参数互为因果,微小的误差可能在迭代中被放大,形成了难以逾越的“分析壁垒” [5] - 目前行业缺乏有效的微观观测工具来剖析这一复杂系统,导致大量优秀的底层机理研究设想因无法定位问题根源而被迫搁置 [5] 异常梯度定位器的核心价值与原理 - 异常梯度定位器旨在解决训练崩溃排查的“黑盒”问题,它将排查粒度从全局监控指标推进到微观层面,能够将全局梯度突刺定位到具体的异常词元 [8] - 该工具通过深度适配分布式计算框架并引入二分搜索策略,将异常排查的复杂度从线性降低至对数级,从而实现了从包含数千万个词元的大批次中高效定位异常词元 [14] - 工具采用了改进的深度优先搜索机制和基于梯度向量统计特性的自适应阈值,能够在几乎不增加额外耗时的情况下定位多个异常词元,并有效避免漏检和误检 [16] - 尽管在触发时会使异常训练步的耗时增加1-3倍,但由于其“按需启动”的特性,在长周期训练中摊销后的额外开销微乎其微 [16] - 理论分析表明,大语言模型极高的参数维度有效保证了该工具在海量数据中定位单个异常词元的成功率 [16] 基于异常梯度定位器的系统性问题排查案例 - 在第一阶段,工具将梯度突刺定位到两类重要性采样比率异常,验证了“训练-推理不一致”的社区猜想,并指导引入了词元级裁剪和序列级裁剪作为互补的修正手段 [22][24] - 在第二阶段,工具发现了“层间梯度异质性”现象,即模型的某些层梯度范数突然爆炸,而其他层保持稳定,同时爆炸层内部所有子模块的梯度呈现高度同步的突刺 [27] - 这一发现揭示了传统全局梯度裁剪的缺陷:当层间异质性发生时,健康层的梯度会被异常层主导并压缩至接近0,从而极大损伤优化效果 [28] - 在第三阶段,基于上述发现针对性提出了分层梯度裁剪,为每一层动态设置独立的裁剪阈值,实验表明其在已有修正基础上进一步显著提升了训练稳定性 [29] 工具带来的范式转变与未来展望 - 异常梯度定位器使得异常排查的时间成本从“周”级别降低到了“小时”级别,这种工程上的确定性将为算法迭代带来巨大的效率复利 [33] - 公司希望持续迭代并开源此类白盒分析工具,让“异常梯度定位”成为像“查看损失曲线”一样触手可及的基础能力,从而降低整个社区的工程门槛 [34][35] - 工具所揭示的“层间梯度异质性”现象,作为有确凿数据支撑的新发现,可能指向了大模型训练中尚未被充分理解的底层物理与统计机理 [37] - 未来,深入研究这些底层机理将至关重要,有望指导行业超越单纯的“梯度裁剪”,从数学原理层面设计出更鲁棒、更高效的优化算法 [37]
揭秘!RLVR/GRPO中那些长期被忽略的关键缺陷
机器之心· 2026-01-30 16:49
RLVR中组内优势估计的系统性偏差 - 当前大模型在数学推理、代码生成等任务上的突破,其关键技术之一是RLVR,即让模型通过可验证的规则(如答案是否正确)进行自我试错和改进[2] - 在RLVR的实际训练中,广泛采用组内相对优势估计方法,即对同一问题生成一组回答,在组内进行相对比较,以此作为策略梯度更新的核心信号[2] - 然而,最新研究发现,这种组内优势估计存在明确且系统性的方向性偏差:困难题的优势被持续低估,简单题的优势则被不断高估[3] - 这种偏差是组内优势估计设计在统计结构层面固有的内在缺陷,无法通过简单调整超参数来缓解[6] 偏差的理论定义与量化分析 - 组内相对优势估计的数学定义为:对于一个提示,采样G个响应并获得奖励,以组内平均奖励为基线,计算每个响应的相对优势[8][9][10] - 在0-1奖励假设下,策略在给定提示上的期望奖励定义为模型在该提示上回答正确的概率[12] - 题目难度根据期望奖励定义:小于0.5为难题,大于0.5为简单题[17] - 分析聚焦于非退化梯度事件,即排除了所有响应全错或全对(导致梯度消失)的情况,关注实际驱动学习的有效更新区间[18][19][20] - 定理1表明,在非退化事件条件下,组相对优势估计对不同难度的提示表现出系统性偏差[23] - 具体而言:对于困难提示,其期望优势估计系统性低于真实优势(被低估);对于简单提示,其期望优势估计系统性高于真实优势(被高估);仅当期望奖励为0.5时,估计才是无偏的[30] - 在常用组大小G=8时,对于困难或简单提示,优势被错误估计的概率超过0.63;当难度加剧时,这一概率上界可提升至0.78甚至100%[32] 偏差的影响与实例 - 偏差导致训练过程表面“稳定收敛”,但模型实际上逐渐回避困难问题、偏好简单样本,破坏了探索与利用的平衡,损害泛化能力和长期训练稳定性[5] - 举例说明:对于一个模型做对概率仅1%的难题,若采样8次且至少有一个正确回答,组内基线会被拉高至至少0.125,导致计算出的优势估计(≤0.875)与真实优势(0.99)产生巨大偏差,即优势被显著低估[26] - 在MATH数据集上的实验显示,对于同一道困难题目,当采样数量从8次提升至128次时,对正确回答的优势估计从2.65增大至3.64,更接近真实值,说明更大的采样组能在一定程度上缓解偏差[28] - 偏差大小与提示难度和采样组大小G相关:提示难度偏离0.5越远(越困难或越简单),偏差越大;在相同难度下,G越小,偏差越大[24][25] 偏差的普适性与解决方案 - 尽管主要分析基于0-1二值奖励,但该偏差现象在更广泛的连续有界奖励模型中同样普遍存在,并非Bernoulli奖励假设的偶然产物[36][37][38] - 系统性偏差导致不同难度提示收到不平衡的梯度信号:困难提示学习进展缓慢,简单提示被过度强化,抑制有效探索[40] - 解决方案是引入自适应调整机制:对于困难提示,应适当放大其估计优势以鼓励探索;对于简单提示,则应抑制其优势以防止过度利用[40] - 论文提出HA-DW算法,通过引入短期历史平均奖励作为动态锚点来判定提示的相对难度,并对优势估计进行自适应重加权[40] - 实验表明,引入优势校正机制后,模型在困难提示上的性能相比原始GRPO提升了3.4%[42] - 这项研究标志着LLM强化学习领域开始从追求工程效果转向关注估计准确性与可解释性,未来偏差分析和估计器正确性很可能成为RLVR的标配[42]
X上63万人围观的Traning-Free GRPO:把GRPO搬进上下文空间学习
机器之心· 2025-10-22 16:46
文章核心观点 - 腾讯优图提出了一种名为Training-Free GRPO的新方法,将强化学习中的GRPO算法完整迁移到上下文学习空间,实现了无需更新模型参数的强化学习效果 [4][6][28] - 该方法在保留GRPO多路径探索、组内优势等核心优点的同时,显著降低了超大模型进行强化学习的成本和工程难度,使中小团队也能应用 [3][4][21][24] - 在数学推理和网页搜索等场景的实验中,该方法仅用100个训练样本和8-18美元成本,就在671B模型上实现了性能提升,并展现出更好的泛化能力 [13][14][17][25] 技术方法创新 - 核心创新在于不更新模型参数,而是将GRPO的“学习过程”搬进上下文空间,通过生成多条解答路径、比较组内优劣、根据优势信号更新文本型LoRA来实现学习 [4][10][11] - 方法完全对齐参数空间RL训练流程:多轮迭代学习、并行生成多条解答、提取文本型组内优势、优化文本型LoRA [10][20][26] - 与Self-Refine等就地改写方法不同,该方法在独立数据集上进行多轮迭代训练,对测试集的Out-of-Domain数据也有显著提升 [25] 实验效果与成本优势 - 在数学推理任务中,仅使用100个训练样本和约8-18美元成本,就在671B的DeepSeek-V3.1-Terminus模型上提升性能:AIME24指标从68.6提升至72.6,AIME25从52.9提升至54.0 [13][15] - 结合代码解释器时,AIME25指标从67.9提升至73.3,提升5.4个百分点;同时工具调用次数减少,表明模型学会了更高效使用工具 [14][15] - 在网页搜索场景中,Pass@1指标从63.2%提升至67.8%,提升4.6个百分点 [17][18] - 成本相比传统RL训练大幅降低,32B量级模型训练一次RL可能花费上万美元,而该方法仅需8-18美元 [4][24] 行业应用价值 - 该方法使超大模型的RL优化变得廉价、灵活、可持续,为中小团队和个人开发者提供了用得起的强化学习方案 [3][4][28] - 只需一个统一模型和API即可泛化到不同场景,避免了维护多个专用模型的系统复杂度和成本 [25] - 技术已开源并将集成到Youtu-Agent框架中,帮助开发者提升各种自定义场景的效果 [6][26]
小米最新大模型成果!罗福莉现身了
自动驾驶之心· 2025-10-19 00:03
公司AI研究进展 - 小米AI团队与北京大学联合发布一篇聚焦MoE与强化学习的论文[2] - 论文通讯作者包括此前从DeepSeek转会至小米的AI研究员罗福莉[4] - 罗福莉硕士毕业于北京大学,其学术论文总引用次数已超过1.1万次,今年新增约八千次引用[5][60] 技术核心问题与解决方案 - 当前MoE架构在强化学习中面临路由机制导致训练不稳定的挑战,严重时会导致模型崩溃[9][10] - 研究团队提出R3方法,通过在训练中复用推理阶段的路由分布来解决路由随机性问题[28][29][30] - R3方法能够与现有的前缀缓存系统无缝衔接,通过缓存路由掩码提升计算效率[35][36][38] 实验性能结果 - 基于Qwen3-30B-A3B模型的实验显示,R3方法在多mini-step设置下GRPO+R3比GSPO高出1.29分[41][42] - 将R3与GSPO结合性能可进一步提升0.95分[43] - R3显著提升训练稳定性,GRPO训练到第60步已严重跑偏,而R3到第150步仍保持平缓曲线[44][45][47]
小米最新大模型成果!罗福莉现身了
量子位· 2025-10-17 12:58
论文核心观点 - 小米AI团队与北京大学联合提出一种名为R3的新方法,旨在解决MoE架构大模型在强化学习中的稳定性与效率平衡问题 [7][9][49] - 该方法通过在训练阶段重放推理阶段的路由分布,使MoE模型的强化学习过程更稳定、更高效 [28][29][30] 技术背景与问题 - 后预训练时代,大规模强化学习是推动大模型突破能力边界的关键工具,但存在效率与稳定性的权衡问题 [8][11][12][13] - 在MoE架构中,动态路由机制导致训练和推理阶段策略不一致,引发“概率漂移”,严重时导致模型“灾难性崩溃” [8][20][22][23][26] R3方法详解 - 核心创新是“路由重放机制”,即在推理时记录路由分布,训练时原样重放,确保训练与推理路径一致 [28][29][30] - 为提升效率,在KVCache前缀缓存基础上引入“路由掩码”缓存,避免对相同上下文重复计算路由 [34][35][36][37] 实验结果 - 基于Qwen3-30B-A3B模型的实验表明,R3方法在多项基准测试中性能更优 [38][40] - 在多mini-step设置下,GRPO+R3比GSPO高出1.29分,GSPO+R3可进一步提升0.95分 [41][42] - R3显著提升了训练稳定性,GRPO训练在第60步出现严重跑偏,而R3在第150步仍保持平缓曲线 [43][44][46] - R3使模型优化过程更丝滑,能更快找到正确方向并探索更优策略 [47][49] 研究团队 - 论文第一作者是小米LLM-Core团队的实习生Wenhan Ma,曾参与小米MiMo模型研发 [51][52][53] - 通讯作者包括AI研究员罗福莉,其学术论文总引用次数超过1.1万次,今年新增约八千次引用 [55][56][59] - 另一通讯作者为北京大学穗志方教授,长期从事计算语言学与文本挖掘研究 [61][65]
陈丹琦新作:大模型强化学习的第三条路,8B小模型超越GPT-4o
量子位· 2025-09-28 12:56
文章核心观点 - 提出一种名为RLMT(基于模型奖励思维的强化学习)的新方法,该方法结合了RLHF和RLVR的优点 [4] - RLMT方法能使参数量仅8B的小模型性能超越GPT-4o,并媲美Claude-3.7-Sonnet [1] - 该方法支持在基础模型上直接使用,无需经过监督微调(SFT),可大幅降低后训练成本 [6] 技术方法与原理 - RLMT要求模型在回答前先生成思维链(CoT),然后使用经人类偏好训练的奖励模型对输出进行评价 [5] - 训练流程为:给定用户提示x,模型生成推理轨迹z,基于推理生成最终回答y,奖励模型r(x, y)对结果打分 [14] - 数学优化目标是最大化期望奖励 [15][16] - 使用人类偏好奖励模型(如Skywork-v2)在流畅性、相关性、逻辑性、创意等维度进行评分 [17] - 在优化算法上,实验了DPO、PPO、GRPO,其中GRPO效果最佳 [17] 性能表现与基准测试 - 在Wildbench等基准测试上,经过RLMT优化的Qwen2.5-7B模型大幅领先其他模型 [13] - 具体数据显示,L3.1-8B-I-RLMT模型在综合评测(Avg)中得分为54.1,超越了GPT-4o的53.2和L3.1-70B-Instruct的32.1 [7] - 在CWv3评测项上,L3.1-8B-I-RLMT得分为22.9,虽低于Claude3.7-Sonnet的39.3和GPT-4o的32.1,但显著高于其他大模型 [7] - 消融实验表明,使用不同提示混合(Prompt mixture)和奖励模型(Reward Model)对最终效果有显著影响 [18] 训练方式与成本优势 - 提供两种训练方式:带SFT预热的Warm-start方式和无SFT直接训练的Zero方式 [21] - Zero方式可在基础模型上直接加入固定前缀提示,通过学习"思考+回答"结构,最终表现也能超过指令微调模型 [21] - 结果显示小模型经RLMT训练后可超越大模型,大幅简化后训练流程并降低成本 [22] - 训练数据来源于真实用户对话,避免了过度偏向数学/代码领域,提升了在开放任务上的泛化能力 [18] 对行业的影响与意义 - 该方法证明了RLVR范式在数学、代码等可验证领域之外的开放任务上同样有效 [11] - 对于非数学代码问题,模型能自然学会分步骤拆解,如回顾、综合、关键主题、核心准则、举例、结构化回答等人类思考方式 [12][19] - 网友认为该方法为通用强化学习设定了新基线,在后训练时代,谁定义了偏好,谁就掌握了新的评分标准 [8]
大模型强化学习,相比PPO,DPO 还是个弟弟?
自动驾驶之心· 2025-06-22 22:09
DPO与PPO的对比研究 - 论文指出当前开源榜单上DPO占据领先位置,但顶级闭源模型如GPT4和Claude仍采用PPO方案,引发对两者实际优势的探讨[1] - DPO存在与PPO类似的reward hacking问题,即可能产生不符合人类偏好但能获得高奖励的解决方案[2] - 理论分析表明PPO导出的策略是DPO导出策略的真子集,DPO可能产生偏离参考策略的解[3] - 实验数据显示在编程比赛等硬核任务上PPO显著优于DPO,如Code Llama 34B模型在APPS测试集上PPO达到44.4%通过率,而DPO-Iter为34.2%[11] DPO的缺陷分析 - DPO在偏好数据集未覆盖的数据点上可能分配过高概率,导致无法预期的行为[6] - 表格数据显示DPO在安全相关指标上表现较差,如Helpfulness为-4.19,Harmfulness为-0.97,Safety Rate仅55.4%[7] - 通过SafeSFT、迭代DPO和数据过滤等方法可提升DPO性能,但仍无法超越PPO[8] PPO性能提升关键因素 - 采用优势函数规范化、大Batch训练和参考模型滑动更新三项技术可显著提升PPO性能[9] - 实验显示当batchsize太小时PPO性能甚至差于SFT[9] - 在编程任务中PPO刷新了SoTA,如Code Llama 34B模型在测试集上达到22.4%通过率,显著高于DPO的0%和DPO-Iter的3.2%[12] 编程任务实验结果 - 在APPS测试集上,Code Llama 34B模型PPO方法在Intro、Inter和Comp三个难度级别分别达到44.4%、18.0%和9.1%通过率[11] - PPO在编程任务中直接利用测试用例结果作为奖励信号,无需人工标注或训练奖励模型[13] - 对比实验显示DPO训练失败产生无意义结果,而PPO刷新了该领域的最高水平[13]
大模型强化学习新突破——SPO新范式助力大模型推理能力提升!
机器之心· 2025-06-08 16:21
强化学习在大语言模型中的应用 - 强化学习(RL)在提升大语言模型(LLM)推理能力方面展现出巨大潜力,DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型证明了其有效性 [1] - 实现有效强化学习需要解决信用分配问题,即如何将序列最终的评估结果归因到具体的决策动作(token)上 [2] - 信用分配问题的困难在于奖励信号非常稀疏,只能在序列结束时获得明确的成功或失败反馈 [3] 当前主要方法 - 强化学习中通常采用优势值估计(advantage estimation)方法解决信用分配问题,针对大语言模型的方法分为两类 [5] - 粗粒度的轨迹级方法(如 GRPO)根据最终奖励为整个序列计算优势值,高效但反馈信号过于粗糙 [6] - 细粒度的 token 级方法(如 PPO)为每个 token 估计优势值,但需要额外 critic 模型且估计误差大 [6] SPO 框架 - 中科院软件所和香港城市大学团队提出 Segment Policy Optimization (SPO) 框架,采用中等粒度的段级优势值估计方式 [8][11] - SPO 框架具有三大优势:更优的信用分配、更准确的优势值估计、更灵活易调整的粒度 [12] - SPO 框架包含三个核心部分:灵活的段级划分策略、基于蒙特卡洛采样的段级优势值估计、利用段级优势值进行策略优化 [13] SPO 框架的具体实例 - 针对短思维链场景提出 SPO-chain,使用基于切分点的段划分和链式优势值估计 [15] - 针对长思维链场景提出 SPO-tree,采用树形结构优势值估计方法提升 MC 采样效率 [15] - 提出 token 概率掩码策略优化方法,选择性对段内低概率 token 计算损失以强化信用分配 [16] SPO 框架核心技术 - 基于切分点的段划分(Cutpoint-based Partition)为短思维链场景设计,根据 token 概率动态确定段边界 [19] - 固定 token 数量段划分(Fixed Token Count Partition)为长思维链场景设计,便于树形结构组织和优势值估计 [19] - 链式优势值估计(Chain-based)方法在短思维链场景下独立估计每个段边界的 V 值 [22] - 树形优势值估计(Tree-based)方法在长思维链场景下通过自底向上的奖励聚合计算 V 值 [23] 实验结果 - 在短思维链场景(GSM8K 数据集),SPO 训练得到的模型测试集正确率高于基线方法 [29] - 在长思维链场景(MATH 数据集),SPO-tree 在相同训练时间下测试集正确率比 GRPO 更高 [31] - 与 GRPO 方法相比,SPO-tree 在短上下文长度(2K 与 4K)下表现更优,表明 GRPO 可能未有效优化 token 效率 [33] - 实验证明 SPO 采用中等粒度优势值有效,过粗粒度(int100)会导致正确率明显下降 [38] - token 概率掩码去除会导致 SPO-chain 正确率下降,应用到 GRPO 上则能提升其正确率 [40] 总结 - SPO 框架在 token 级和轨迹级之间更好平衡,具有比轨迹级更好的信用分配,且不需要额外 critic 模型 [42] - SPO-chain 和 SPO-tree 通过实验证明了其在短思维链和长思维链场景下的有效性 [43]
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 18:28
核心观点 - 强化学习训练大模型推理能力时,仅20%的高熵token能支撑整个训练效果,甚至优于使用全部token训练的效果 [1][6][15] - 高熵token在推理中扮演"逻辑连接器"角色,对模型性能提升至关重要,而低熵token贡献微乎其微甚至可能产生副作用 [11][18][20] - 该方法在Qwen3系列模型上实现显著性能提升,并展现出规模效应和泛化优势 [2][16][22] 高熵token的发现与特性 - 链式思考推理中,token熵分布呈现独特模式:50%以上token熵值低于0.01,仅20%token熵值大于0.672 [9][10] - 高熵token(分叉token)功能特殊,如"wait"、"thus"等逻辑连接词,决定推理路径方向;低熵token多为确定性内容如词缀或代码片段 [11] - 实验证实:提高高熵token解码温度可改善推理性能,降低温度则导致性能下降 [13] 训练方法与性能提升 - RLVR训练中仅保留top 20%高熵token策略梯度,Qwen3-32B在AIME'24分数提升7.71分,响应长度增加2553.39 token [15][17] - 反向实验显示:仅用80%低熵token训练会导致性能急剧下降 [17][18] - 规模效应明显:32B模型提升最大(AIME'24 +7.71分),14B次之(+5.21分),8B最小(+1.25分) [16][17][22] 机制分析与理论突破 - 高熵token的不确定性有助于模型探索推理路径,低熵token的确定性限制探索能力 [20] - RLVR训练后,模型与base model在高熵token位置重叠率仍保持86.67%,显示RLVR保留预训练模型的熵判断模式 [24][25] - 初始熵越高的token在RLVR训练后熵增幅越大,低熵token几乎不变 [25] 应用与泛化价值 - 数学数据集训练的模型在编程任务LiveCodeBench上表现优异,显示高熵token与泛化能力密切相关 [22] - 高熵token可能是强化学习泛化优于监督微调的关键因素,后者易导致分叉token熵降低 [26][27] - 传统强化学习假设动作熵均匀分布,而大模型推理需整合先验知识,输出包含高低熵token混合 [27]
Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好
量子位· 2025-06-05 18:28
核心观点 - 在强化学习训练大模型推理能力时,仅20%的高熵token就能支撑整个训练效果,甚至优于使用全部token训练 [1] - 该方法在Qwen3-32B上创造了新的SOTA记录:AIME'24达到63.5分,AIME'25达到56.7分,是600B参数以下直接从base模型训练的最高分 [2] - 最大响应长度从20k延长到29k,AIME'24分数提升至68.1分 [4] - 该方法突破了经典的二八法则,80%低熵token不仅可以舍弃,还可能起副作用 [6] 链式思考的熵分布 - 大模型进行链式思考推理时,token熵分布呈现独特模式:大部分token熵值低,少数token表现出高熵特征 [9] - 超过50%的token熵值低于0.01,仅20%的token熵值大于0.672 [10] - 高熵token扮演"逻辑连接器"角色,如"wait"、"however"、"thus"等,在推理中起转折、递进或因果连接作用 [11] - 低熵token多为词缀、代码片段或数学表达式组成部分,具有高度确定性 [11] 分叉token的重要性 - 高熵token被称为分叉token,决定推理路径方向,低熵token则沿既定方向进行 [11] - 实验显示:提高高熵token温度能改善推理性能,降低其温度则导致性能下降 [13] - 仅保留top 20%高熵token的策略梯度,屏蔽剩余80%梯度,Qwen3-32B性能显著提升:AIME'24提升7.71分,AIME'25提升11.04分,平均响应长度增加1378个token [15] - Qwen3-14B和Qwen3-8B也有类似提升效果,但规模效应明显:模型越大,优势越显著 [16][22] 训练方法与效果 - 反向实验显示:仅用80%低熵token训练,模型性能急剧下降 [17] - 低熵token对推理能力提升贡献微乎其微,甚至可能起负面作用 [18] - 高熵token帮助模型探索不同推理路径,低熵token过于确定,限制探索能力 [20] - 该方法训练出的模型在域外任务表现优异,暗示高熵token与模型泛化能力密切相关 [22] RLVR训练特性 - RLVR训练并非推倒重来,而是在base model基础上做精细调整 [24] - 训练收敛后(第1360步),模型与base model在高熵token位置上的重叠率仍保持86.67%以上 [24] - RLVR调整策略"偏心":初始熵越高的token,训练后熵增幅越大;低熵token几乎不变 [25] 讨论与启示 - 高熵token可能是解释强化学习能泛化而监督微调倾向于记忆而过拟合的关键 [26] - 强化学习保持甚至增加分叉token熵,维持推理路径灵活性;监督微调则降低分叉token熵,失去灵活性 [27] - 大模型推理需整合先验知识且生成可读性输出,与传统强化学习假设动作熵均匀分布不同 [27] - 在RLVR中,熵奖励可能非最优选择,clip-higher方法能更有效提升高熵少数标记的熵值 [27]