大模型强化学习 - 财报，业绩电话会，研报，新闻 - Reportify

大模型强化学习

搜索文档

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

机器之心· 2025-10-22 16:46

文章核心观点 - 腾讯优图提出了一种名为Training-Free GRPO的新方法，将强化学习中的GRPO算法完整迁移到上下文学习空间，实现了无需更新模型参数的强化学习效果 [4][6][28] - 该方法在保留GRPO多路径探索、组内优势等核心优点的同时，显著降低了超大模型进行强化学习的成本和工程难度，使中小团队也能应用 [3][4][21][24] - 在数学推理和网页搜索等场景的实验中，该方法仅用100个训练样本和8-18美元成本，就在671B模型上实现了性能提升，并展现出更好的泛化能力 [13][14][17][25] 技术方法创新 - 核心创新在于不更新模型参数，而是将GRPO的“学习过程”搬进上下文空间，通过生成多条解答路径、比较组内优劣、根据优势信号更新文本型LoRA来实现学习 [4][10][11] - 方法完全对齐参数空间RL训练流程：多轮迭代学习、并行生成多条解答、提取文本型组内优势、优化文本型LoRA [10][20][26] - 与Self-Refine等就地改写方法不同，该方法在独立数据集上进行多轮迭代训练，对测试集的Out-of-Domain数据也有显著提升 [25] 实验效果与成本优势 - 在数学推理任务中，仅使用100个训练样本和约8-18美元成本，就在671B的DeepSeek-V3.1-Terminus模型上提升性能：AIME24指标从68.6提升至72.6，AIME25从52.9提升至54.0 [13][15] - 结合代码解释器时，AIME25指标从67.9提升至73.3，提升5.4个百分点；同时工具调用次数减少，表明模型学会了更高效使用工具 [14][15] - 在网页搜索场景中，Pass@1指标从63.2%提升至67.8%，提升4.6个百分点 [17][18] - 成本相比传统RL训练大幅降低，32B量级模型训练一次RL可能花费上万美元，而该方法仅需8-18美元 [4][24] 行业应用价值 - 该方法使超大模型的RL优化变得廉价、灵活、可持续，为中小团队和个人开发者提供了用得起的强化学习方案 [3][4][28] - 只需一个统一模型和API即可泛化到不同场景，避免了维护多个专用模型的系统复杂度和成本 [25] - 技术已开源并将集成到Youtu-Agent框架中，帮助开发者提升各种自定义场景的效果 [6][26]

大模型强化学习

上下文学习

Training-Free GRPO

大模型强化学习

上下文学习

Training-Free GRPO

小米最新大模型成果！罗福莉现身了

自动驾驶之心· 2025-10-19 00:03

公司AI研究进展 - 小米AI团队与北京大学联合发布一篇聚焦MoE与强化学习的论文[2] - 论文通讯作者包括此前从DeepSeek转会至小米的AI研究员罗福莉[4] - 罗福莉硕士毕业于北京大学，其学术论文总引用次数已超过1.1万次，今年新增约八千次引用[5][60] 技术核心问题与解决方案 - 当前MoE架构在强化学习中面临路由机制导致训练不稳定的挑战，严重时会导致模型崩溃[9][10] - 研究团队提出R3方法，通过在训练中复用推理阶段的路由分布来解决路由随机性问题[28][29][30] - R3方法能够与现有的前缀缓存系统无缝衔接，通过缓存路由掩码提升计算效率[35][36][38] 实验性能结果 - 基于Qwen3-30B-A3B模型的实验显示，R3方法在多mini-step设置下GRPO+R3比GSPO高出1.29分[41][42] - 将R3与GSPO结合性能可进一步提升0.95分[43] - R3显著提升训练稳定性，GRPO训练到第60步已严重跑偏，而R3到第150步仍保持平缓曲线[44][45][47]

小米集团(HK:01810)

大模型强化学习

路由重放机制

Consumer Electronics

小米大模型

大模型强化学习

路由重放机制

Consumer Electronics

小米大模型

小米最新大模型成果！罗福莉现身了

量子位· 2025-10-17 12:58

论文核心观点 - 小米AI团队与北京大学联合提出一种名为R3的新方法，旨在解决MoE架构大模型在强化学习中的稳定性与效率平衡问题 [7][9][49] - 该方法通过在训练阶段重放推理阶段的路由分布，使MoE模型的强化学习过程更稳定、更高效 [28][29][30] 技术背景与问题 - 后预训练时代，大规模强化学习是推动大模型突破能力边界的关键工具，但存在效率与稳定性的权衡问题 [8][11][12][13] - 在MoE架构中，动态路由机制导致训练和推理阶段策略不一致，引发“概率漂移”，严重时导致模型“灾难性崩溃” [8][20][22][23][26] R3方法详解 - 核心创新是“路由重放机制”，即在推理时记录路由分布，训练时原样重放，确保训练与推理路径一致 [28][29][30] - 为提升效率，在KVCache前缀缓存基础上引入“路由掩码”缓存，避免对相同上下文重复计算路由 [34][35][36][37] 实验结果 - 基于Qwen3-30B-A3B模型的实验表明，R3方法在多项基准测试中性能更优 [38][40] - 在多mini-step设置下，GRPO+R3比GSPO高出1.29分，GSPO+R3可进一步提升0.95分 [41][42] - R3显著提升了训练稳定性，GRPO训练在第60步出现严重跑偏，而R3在第150步仍保持平缓曲线 [43][44][46] - R3使模型优化过程更丝滑，能更快找到正确方向并探索更优策略 [47][49] 研究团队 - 论文第一作者是小米LLM-Core团队的实习生Wenhan Ma，曾参与小米MiMo模型研发 [51][52][53] - 通讯作者包括AI研究员罗福莉，其学术论文总引用次数超过1.1万次，今年新增约八千次引用 [55][56][59] - 另一通讯作者为北京大学穗志方教授，长期从事计算语言学与文本挖掘研究 [61][65]

小米集团(HK:01810)

路由重放机制

灾难性崩溃

大模型强化学习

路由重放机制

灾难性崩溃

大模型强化学习

陈丹琦新作：大模型强化学习的第三条路，8B小模型超越GPT-4o

量子位· 2025-09-28 12:56

文章核心观点 - 提出一种名为RLMT（基于模型奖励思维的强化学习）的新方法，该方法结合了RLHF和RLVR的优点 [4] - RLMT方法能使参数量仅8B的小模型性能超越GPT-4o，并媲美Claude-3.7-Sonnet [1] - 该方法支持在基础模型上直接使用，无需经过监督微调（SFT），可大幅降低后训练成本 [6] 技术方法与原理 - RLMT要求模型在回答前先生成思维链（CoT），然后使用经人类偏好训练的奖励模型对输出进行评价 [5] - 训练流程为：给定用户提示x，模型生成推理轨迹z，基于推理生成最终回答y，奖励模型r(x, y)对结果打分 [14] - 数学优化目标是最大化期望奖励 [15][16] - 使用人类偏好奖励模型（如Skywork-v2）在流畅性、相关性、逻辑性、创意等维度进行评分 [17] - 在优化算法上，实验了DPO、PPO、GRPO，其中GRPO效果最佳 [17] 性能表现与基准测试 - 在Wildbench等基准测试上，经过RLMT优化的Qwen2.5-7B模型大幅领先其他模型 [13] - 具体数据显示，L3.1-8B-I-RLMT模型在综合评测（Avg）中得分为54.1，超越了GPT-4o的53.2和L3.1-70B-Instruct的32.1 [7] - 在CWv3评测项上，L3.1-8B-I-RLMT得分为22.9，虽低于Claude3.7-Sonnet的39.3和GPT-4o的32.1，但显著高于其他大模型 [7] - 消融实验表明，使用不同提示混合（Prompt mixture）和奖励模型（Reward Model）对最终效果有显著影响 [18] 训练方式与成本优势 - 提供两种训练方式：带SFT预热的Warm-start方式和无SFT直接训练的Zero方式 [21] - Zero方式可在基础模型上直接加入固定前缀提示，通过学习"思考+回答"结构，最终表现也能超过指令微调模型 [21] - 结果显示小模型经RLMT训练后可超越大模型，大幅简化后训练流程并降低成本 [22] - 训练数据来源于真实用户对话，避免了过度偏向数学/代码领域，提升了在开放任务上的泛化能力 [18] 对行业的影响与意义 - 该方法证明了RLVR范式在数学、代码等可验证领域之外的开放任务上同样有效 [11] - 对于非数学代码问题，模型能自然学会分步骤拆解，如回顾、综合、关键主题、核心准则、举例、结构化回答等人类思考方式 [12][19] - 网友认为该方法为通用强化学习设定了新基线，在后训练时代，谁定义了偏好，谁就掌握了新的评分标准 [8]

大模型强化学习

自然语言处理

RLMT（基于模型奖励思维的强化学习）

大模型强化学习

自然语言处理

RLMT（基于模型奖励思维的强化学习）

大模型强化学习，相比PPO，DPO 还是个弟弟？

自动驾驶之心· 2025-06-22 22:09

DPO与PPO的对比研究 - 论文指出当前开源榜单上DPO占据领先位置，但顶级闭源模型如GPT4和Claude仍采用PPO方案，引发对两者实际优势的探讨[1] - DPO存在与PPO类似的reward hacking问题，即可能产生不符合人类偏好但能获得高奖励的解决方案[2] - 理论分析表明PPO导出的策略是DPO导出策略的真子集，DPO可能产生偏离参考策略的解[3] - 实验数据显示在编程比赛等硬核任务上PPO显著优于DPO，如Code Llama 34B模型在APPS测试集上PPO达到44.4%通过率，而DPO-Iter为34.2%[11] DPO的缺陷分析 - DPO在偏好数据集未覆盖的数据点上可能分配过高概率，导致无法预期的行为[6] - 表格数据显示DPO在安全相关指标上表现较差，如Helpfulness为-4.19，Harmfulness为-0.97，Safety Rate仅55.4%[7] - 通过SafeSFT、迭代DPO和数据过滤等方法可提升DPO性能，但仍无法超越PPO[8] PPO性能提升关键因素 - 采用优势函数规范化、大Batch训练和参考模型滑动更新三项技术可显著提升PPO性能[9] - 实验显示当batchsize太小时PPO性能甚至差于SFT[9] - 在编程任务中PPO刷新了SoTA，如Code Llama 34B模型在测试集上达到22.4%通过率，显著高于DPO的0%和DPO-Iter的3.2%[12] 编程任务实验结果 - 在APPS测试集上，Code Llama 34B模型PPO方法在Intro、Inter和Comp三个难度级别分别达到44.4%、18.0%和9.1%通过率[11] - PPO在编程任务中直接利用测试用例结果作为奖励信号，无需人工标注或训练奖励模型[13] - 对比实验显示DPO训练失败产生无意义结果，而PPO刷新了该领域的最高水平[13]

大模型强化学习

大模型强化学习

大模型强化学习新突破——SPO新范式助力大模型推理能力提升！

机器之心· 2025-06-08 16:21

强化学习在大语言模型中的应用 - 强化学习（RL）在提升大语言模型（LLM）推理能力方面展现出巨大潜力，DeepSeek R1、Kimi K1.5 和 Qwen 3 等模型证明了其有效性 [1] - 实现有效强化学习需要解决信用分配问题，即如何将序列最终的评估结果归因到具体的决策动作（token）上 [2] - 信用分配问题的困难在于奖励信号非常稀疏，只能在序列结束时获得明确的成功或失败反馈 [3] 当前主要方法 - 强化学习中通常采用优势值估计（advantage estimation）方法解决信用分配问题，针对大语言模型的方法分为两类 [5] - 粗粒度的轨迹级方法（如 GRPO）根据最终奖励为整个序列计算优势值，高效但反馈信号过于粗糙 [6] - 细粒度的 token 级方法（如 PPO）为每个 token 估计优势值，但需要额外 critic 模型且估计误差大 [6] SPO 框架 - 中科院软件所和香港城市大学团队提出 Segment Policy Optimization (SPO) 框架，采用中等粒度的段级优势值估计方式 [8][11] - SPO 框架具有三大优势：更优的信用分配、更准确的优势值估计、更灵活易调整的粒度 [12] - SPO 框架包含三个核心部分：灵活的段级划分策略、基于蒙特卡洛采样的段级优势值估计、利用段级优势值进行策略优化 [13] SPO 框架的具体实例 - 针对短思维链场景提出 SPO-chain，使用基于切分点的段划分和链式优势值估计 [15] - 针对长思维链场景提出 SPO-tree，采用树形结构优势值估计方法提升 MC 采样效率 [15] - 提出 token 概率掩码策略优化方法，选择性对段内低概率 token 计算损失以强化信用分配 [16] SPO 框架核心技术 - 基于切分点的段划分（Cutpoint-based Partition）为短思维链场景设计，根据 token 概率动态确定段边界 [19] - 固定 token 数量段划分（Fixed Token Count Partition）为长思维链场景设计，便于树形结构组织和优势值估计 [19] - 链式优势值估计（Chain-based）方法在短思维链场景下独立估计每个段边界的 V 值 [22] - 树形优势值估计（Tree-based）方法在长思维链场景下通过自底向上的奖励聚合计算 V 值 [23] 实验结果 - 在短思维链场景（GSM8K 数据集），SPO 训练得到的模型测试集正确率高于基线方法 [29] - 在长思维链场景（MATH 数据集），SPO-tree 在相同训练时间下测试集正确率比 GRPO 更高 [31] - 与 GRPO 方法相比，SPO-tree 在短上下文长度（2K 与 4K）下表现更优，表明 GRPO 可能未有效优化 token 效率 [33] - 实验证明 SPO 采用中等粒度优势值有效，过粗粒度（int100）会导致正确率明显下降 [38] - token 概率掩码去除会导致 SPO-chain 正确率下降，应用到 GRPO 上则能提升其正确率 [40] 总结 - SPO 框架在 token 级和轨迹级之间更好平衡，具有比轨迹级更好的信用分配，且不需要额外 critic 模型 [42] - SPO-chain 和 SPO-tree 通过实验证明了其在短思维链和长思维链场景下的有效性 [43]

大模型强化学习

信用分配问题

大模型强化学习

信用分配问题

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

量子位· 2025-06-05 18:28

核心观点 - 强化学习训练大模型推理能力时，仅20%的高熵token能支撑整个训练效果，甚至优于使用全部token训练的效果 [1][6][15] - 高熵token在推理中扮演"逻辑连接器"角色，对模型性能提升至关重要，而低熵token贡献微乎其微甚至可能产生副作用 [11][18][20] - 该方法在Qwen3系列模型上实现显著性能提升，并展现出规模效应和泛化优势 [2][16][22] 高熵token的发现与特性 - 链式思考推理中，token熵分布呈现独特模式：50%以上token熵值低于0.01，仅20%token熵值大于0.672 [9][10] - 高熵token（分叉token）功能特殊，如"wait"、"thus"等逻辑连接词，决定推理路径方向；低熵token多为确定性内容如词缀或代码片段 [11] - 实验证实：提高高熵token解码温度可改善推理性能，降低温度则导致性能下降 [13] 训练方法与性能提升 - RLVR训练中仅保留top 20%高熵token策略梯度，Qwen3-32B在AIME'24分数提升7.71分，响应长度增加2553.39 token [15][17] - 反向实验显示：仅用80%低熵token训练会导致性能急剧下降 [17][18] - 规模效应明显：32B模型提升最大（AIME'24 +7.71分），14B次之（+5.21分），8B最小（+1.25分） [16][17][22] 机制分析与理论突破 - 高熵token的不确定性有助于模型探索推理路径，低熵token的确定性限制探索能力 [20] - RLVR训练后，模型与base model在高熵token位置重叠率仍保持86.67%，显示RLVR保留预训练模型的熵判断模式 [24][25] - 初始熵越高的token在RLVR训练后熵增幅越大，低熵token几乎不变 [25] 应用与泛化价值 - 数学数据集训练的模型在编程任务LiveCodeBench上表现优异，显示高熵token与泛化能力密切相关 [22] - 高熵token可能是强化学习泛化优于监督微调的关键因素，后者易导致分叉token熵降低 [26][27] - 传统强化学习假设动作熵均匀分布，而大模型推理需整合先验知识，输出包含高低熵token混合 [27]

大模型强化学习

Artificial Intelligence

大模型强化学习

Artificial Intelligence

Qwen&清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

量子位· 2025-06-05 18:28

核心观点 - 在强化学习训练大模型推理能力时，仅20%的高熵token就能支撑整个训练效果，甚至优于使用全部token训练 [1] - 该方法在Qwen3-32B上创造了新的SOTA记录：AIME'24达到63.5分，AIME'25达到56.7分，是600B参数以下直接从base模型训练的最高分 [2] - 最大响应长度从20k延长到29k，AIME'24分数提升至68.1分 [4] - 该方法突破了经典的二八法则，80%低熵token不仅可以舍弃，还可能起副作用 [6] 链式思考的熵分布 - 大模型进行链式思考推理时，token熵分布呈现独特模式：大部分token熵值低，少数token表现出高熵特征 [9] - 超过50%的token熵值低于0.01，仅20%的token熵值大于0.672 [10] - 高熵token扮演"逻辑连接器"角色，如"wait"、"however"、"thus"等，在推理中起转折、递进或因果连接作用 [11] - 低熵token多为词缀、代码片段或数学表达式组成部分，具有高度确定性 [11] 分叉token的重要性 - 高熵token被称为分叉token，决定推理路径方向，低熵token则沿既定方向进行 [11] - 实验显示：提高高熵token温度能改善推理性能，降低其温度则导致性能下降 [13] - 仅保留top 20%高熵token的策略梯度，屏蔽剩余80%梯度，Qwen3-32B性能显著提升：AIME'24提升7.71分，AIME'25提升11.04分，平均响应长度增加1378个token [15] - Qwen3-14B和Qwen3-8B也有类似提升效果，但规模效应明显：模型越大，优势越显著 [16][22] 训练方法与效果 - 反向实验显示：仅用80%低熵token训练，模型性能急剧下降 [17] - 低熵token对推理能力提升贡献微乎其微，甚至可能起负面作用 [18] - 高熵token帮助模型探索不同推理路径，低熵token过于确定，限制探索能力 [20] - 该方法训练出的模型在域外任务表现优异，暗示高熵token与模型泛化能力密切相关 [22] RLVR训练特性 - RLVR训练并非推倒重来，而是在base model基础上做精细调整 [24] - 训练收敛后（第1360步），模型与base model在高熵token位置上的重叠率仍保持86.67%以上 [24] - RLVR调整策略"偏心"：初始熵越高的token，训练后熵增幅越大；低熵token几乎不变 [25] 讨论与启示 - 高熵token可能是解释强化学习能泛化而监督微调倾向于记忆而过拟合的关键 [26] - 强化学习保持甚至增加分叉token熵，维持推理路径灵活性；监督微调则降低分叉token熵，失去灵活性 [27] - 大模型推理需整合先验知识且生成可读性输出，与传统强化学习假设动作熵均匀分布不同 [27] - 在RLVR中，熵奖励可能非最优选择，clip-higher方法能更有效提升高熵少数标记的熵值 [27]

Chain-of-Thought

大模型强化学习

Chain-of-Thought

大模型强化学习

10行代码，AIME24/25提高15%！揭秘大模型强化学习熵机制

机器之心· 2025-06-05 15:14

大模型强化学习中的熵塌缩问题 - 强化学习核心挑战在于利用-探索权衡，策略熵反映动作选择不确定性，传统方法通过正则化调控熵 [4] - 大语言模型训练中策略熵在几步内急剧下降至接近零，导致探索能力缺失和性能停滞，定量分析显示下游性能R与策略熵H符合指数关系R = -a exp(H)+b [4] - 在Qwen、Mistral、LLaMA和Deepseek等模型家族中验证熵塌缩现象，表明熵耗尽时性能上界确定，单纯增加算力收益有限 [7] 熵与协方差关系机制 - 策略熵单调递减的机制源于动作对数概率与logit变化的协方差，高优势度高概率动作降低熵，高优势度罕见动作增加熵 [13] - 实验显示训练初期高协方差推动熵减，后期协方差虽降低但仍维持正值持续压制熵 [13] - 传统熵/KL正则化方法在大模型中效果微弱，需针对性设计新方案 [16] 熵增强化学习方案 - 提出Clip-Cov与KL-Cov两种方法，通过限制高协方差token更新步长控制熵，Clip-Cov随机冻结部分高协方差token梯度，KL-Cov调整KL散度计算方式 [17][22] - 实验证明新方法可主动调节熵水平，在Qwen2.5-32B上实现6.4%性能提升，AIME24/25数据集提升达15% [22] - 训练动态显示新方案能维持熵值稳定并延长输出长度，突破低熵陷阱 [24] 理论与应用价值 - 发现类似Scaling Law的利用-探索曲线规律，可从小模型推演大模型性能并早期预测结果 [7] - 熵动力学理论为理解LLM强化学习底层机制提供新视角，推动算法优化 [24] - 后训练阶段算力投入增加背景下，突破熵瓶颈是实现强化学习规模化发展的关键 [24]

大模型强化学习

熵塌缩问题

Artificial Intelligence

大模型强化学习

熵塌缩问题

Artificial Intelligence

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

量子位· 2025-04-02 15:40

大模型强化学习扩展至多学科领域 - 腾讯与苏州大学团队提出RLVR框架将强化学习训练从数学/代码扩展到医学、化学、法律、心理学、经济学等多学科领域 [3][4] - 传统基于二元规则的奖励在结构化数据领域有效但难以适应非结构化学科 RLVR采用基于生成模型的软奖励显著提升泛化能力和稳健性 [4][18] - 开源7B参数奖励模型及多学科数据集促进相关研究发展 [5] 技术实现路径 - 发现大语言模型对客观参考答案的二元判断具有高度一致性可直接作为验证器使用无需为每个领域单独训练大规模奖励模型 [7][8] - 通过72B参数的Qwen2 5-Instruct蒸馏出7B奖励模型训练过程无需领域标注完全依赖在线探索数据 [9] - 引入基于置信度的软评分机制相比二元硬标签(0/1)能更灵活处理复杂判断场景 [9][18] 实验验证结果 - 在6000个跨学科问题测试中 RM-7B模型在自由形式答案任务表现最优数学领域平均得分62 5(软奖励) 多学科平均31 2 [14][15] - 软奖励在多学科任务中全面优于二元奖励如社会科学领域得分提升至32 8(软) vs 29 1(二元) [15] - 数据量扩展性验证显示 RM-7B在100k数据规模时数学得分达65 0 多学科35 0 显著优于基于规则的方法(51 7和16 9) [16] 方法论创新与局限 - 突破传统强化学习依赖结构化数据的限制实现非标准化参考答案的语义等价性评估 [17] - 未使用思维链推理(CoT) 对中间步骤奖励分配机制仍存研究空间 [16] - 不设格式约束降低数据标准化成本但格式相关奖励的作用需进一步验证 [17]

腾讯控股(HK:00700)

大模型强化学习

Artificial Intelligence

RM - 7B奖励模型

大模型强化学习

Artificial Intelligence

RM - 7B奖励模型