DAPO - 财报，业绩电话会，研报，新闻

DAPO

搜索文档

NeurIPS25高分论文｜以判别式监督学习强化推理LLM，解决难度偏差和熵崩塌难题

机器之心· 2025-10-26 15:00

核心观点 - 提出一种名为判别式约束优化（DisCO）的新框架，用于强化大型推理模型，该框架基于判别式学习原则，旨在增加正确答案得分并减少错误答案得分[3] - DisCO框架成功解决了群体相对策略优化（GRPO）及其变体存在的难度偏差和熵不稳定性问题[6][27] - 实验结果表明，DisCO在增强大型模型数学推理能力方面显著优于GRPO及其改进版本，在1.5B模型的六个基准任务中平均增益比GRPO高7%，比DAPO高6%[4] GRPO问题分析 - 发现GRPO在二元奖励设置下存在难度偏差问题，其优化目标中的加权项导致模型只重点学习"中等难度"问题，而忽视正确率较高或较低的问题[12] - 实验证实不适当的加权有害影响，移除加权后的变体"GRPO_RW"能在更多问题上实现100%正确率和更少问题上实现0%正确率[12] - 揭示了GRPO优化目标与判别式监督学习AUC最大化思路之间的联系[11] DisCO方法设计 - 采用判别式目标函数，其优化目标类似于AUC优化，直接增加正确答案得分并减少错误答案得分[16] - 引入基于分布鲁棒性优化（DRO）的目标函数来解决稀疏奖励导致的训练数据不平衡问题，该设计借鉴了局部AUC优化技术[17][18] - 采用约束优化方法稳定训练，通过非凸不等式约束优化策略将KL散度约束替换为平滑的方形铰链惩罚项，避免了裁剪操作引起的熵崩塌现象[19][20] 实验结果 - 在1.5B模型实验中，DisCO在六个数学基准数据集上始终显著优于其他基线方法，训练和推理长度均为8k的DisCO比GRPO平均提高7%[22] - 在7B模型实验中，DisCO大幅优于所有基线方法，比GRPO平均提高3.5%[22] - 训练动态分析显示DisCO方法最为稳定，训练奖励不断增加且生成熵保持相对稳定，而GRPO及其变体都出现了熵崩塌或熵过度增长问题[27][28] 技术优势 - 完全消除了GRPO存在的难度偏差问题[6] - 通过使用非裁剪评分函数和约束优化方法，解决了GRPO及其变体的熵不稳定性，获得了长期稳定的训练动态[6][27] - 允许结合先进的判别式学习技术来解决数据不平衡问题，特别是在训练过程中错误答案远多于正确答案的情况[4][17]

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

36氪· 2025-09-01 12:38

大语言模型后训练强化学习技术演进 - 大语言模型后训练过程通过强化学习优化模型输出内容符合任务偏好预训练使模型掌握通用语言能力但后训练强化特定领域知识和应用能力增强模型适应性和灵活性[5] - 强化学习核心是反馈机制目标是增加好结果出现概率降低坏结果出现概率在大模型训练中采用人类反馈方式[5][8][9] PPO强化学习算法 - PPO采用近端策略优化机制加入Critic价值函数和CLIP操作保证策略更新不过度同时高效提升性能成为强化学习领域标准方法之一[11] - PPO损失函数包含Critic价值函数评估相对进步程度显著降低训练过程方差同时采用Clip策略限制新策略相对于旧策略动作概率变化幅度避免模型更新幅度过大[11][13] GRPO算法创新 - GRPO去除PPO中Critic价值函数采用策略模型多次输出采样奖励平均值作为基准线超过平均值视为正向Advantage 低于为负向Advantage 大幅降低内存需求和计算成本[14][16] - GRPO内存需求为基础模型0.5倍训练速度比PPO快3-5倍采用单策略网络架构优势估计采用统计型群体投票方式[18] - GRPO存在严重稳定性问题容易导致训练崩溃需要大量数据降低策略梯度方差中小规模训练中稳定性缺陷致命[18][19] DAPO算法改进 - DAPO在GRPO框架内进行工程改进让Qwen2.5-32B模型在AIME 2024基准获得50分优于同等规模DeepSeek模型训练步数少50%[20] - 采用Clip-Higher机制将剪辑上下限解耦为ε_low和ε_high 增加ε_high值为低概率token留出更多空间提升训练早期熵[21] - 实施动态采样过滤奖励为1和0的提示语保留有效梯度样本提高训练效率采用Token级策略梯度损失保证长序列所有token公平贡献batch loss[21][22] GSPO范式突破 - GSPO将重要性采样从token级提升到序列级基于整个序列似然度计算重要性比值显著降低长序列中积累的高方差提高训练稳定性[25][29][31] - 序列级重要性采样进行长度归一化避免importance ratio对长度敏感造成不稳定同一序列所有token共用同一重要性权重裁剪时作用于整个回答而非部分token[31] - GSPO损失函数采用序列级重要性权重和clip操作成为Qwen3强化学习核心实践框架可能成为未来后训练强化学习新标准[25][31] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励信号问题可同时优化多个响应属性如简洁性和准确度避免模型响应长度大幅增加[33] - 采用显式过滤机制为每个问题采样更大候选响应组过滤不符合目标属性响应在所选组内使用标准奖励计算相对优势无需复杂奖励工程[33][34] - GFPO主要干预Advantage估计层面可与任何GRPO类似方法兼容包括DAPO或带有Dual-Clip PPO损失的GRPO[35] GRPO其他缺陷 - GRPO存在奖励歧义性问题多个奖励信号被合并为单一标量信号模型无法知道具体因什么行为被奖励即使调整不同奖励组件权重仍只能看到总奖励[39][41] - 在推理任务中 GRPO丢弃所有中间文本反馈仅使用数值化奖励信号文字反馈对模型有帮助但完全无法利用[43] - 多轮推理任务中每轮反馈重新输入到基础模型prompt 导致指数级分支使GRPO在多轮任务训练变得非常困难[44]

微软(US:MSFT)

大模型后训练

强化学习

Artificial Intelligence

Artificial Intelligence

GFPO

GPT

GRPO

科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生

机器之心· 2025-09-01 10:49

大模型后训练强化学习技术演进 - GRPO已成为大模型通用的强化学习算法，能够应用于广泛的后训练任务，各大研究团队近期发布的重磅成果如DAPO、GSPO、GFPO均是对GRPO范式的改进 [4][5][38] 后训练与强化学习基础 - 大语言模型开发包含预训练和后训练两个关键阶段，预训练使模型掌握通用语言能力，后训练则强化模型在特定领域的知识和应用能力，增强模型适应性和灵活性 [11][12] - 强化学习是后训练中不可或缺的核心部分，其核心机制是通过反馈增加好结果出现概率并降低坏结果出现概率 [13][14] - OpenAI在GPT训练中采用RLHF方法，通过人类反馈训练agent生成更有用的输出，但直接使用反馈会导致激励不充分和方差过大问题 [17][19] PPO机制及其局限性 - PPO通过引入Critic价值函数将绝对Reward反馈转变为相对评估的Advantage机制，显著降低训练方差 [21][22][23] - PPO采用Clip策略限制新策略相对于旧策略的动作概率变化幅度，避免模型单次更新幅度过大，同时加入Reference Model和KL散度作为双保险保障更新稳定性 [24][25][26] - PPO需同时训练策略模型和Critic模型，Critic模型大小与策略模型相同，带来额外内存和计算负担，训练成本高且难以扩展 [29] GRPO创新与优势 - GRPO通过去掉Critic模型解决PPO高成本问题，采用策略模型多次输出采样的平均Reward作为baseline计算Advantage，大幅降低内存需求和计算复杂度 [30][31][34][35] - 相比PPO需要基础模型3倍内存，GRPO仅需0.5倍内存，训练速度快3-5倍，采用单策略网络架构更简单直观 [37] - 但GRPO存在严重稳定性问题，容易导致训练崩溃，需要足够多的Batch数据来降低策略梯度方差，对中小规模训练不友好 [39] DAPO优化方案 - DAPO针对GRPO实践问题提出四项优化：Clip-Higher机制通过解耦剪辑范围提升训练早期熵值；动态采样过滤无效梯度样本；Token级策略梯度损失保证长序列所有token公平贡献；超长奖励调整避免过长响应 [42][43][44] - 使用DAPO算法让Qwen2.5-32B模型在AIME 2024基准获得50分，优于同等规模DeepSeek模型且训练步数少50% [41] GSPO范式突破 - GSPO将重要性采样从token级提升至序列级，基于整个序列似然度计算重要性比值，显著降低长序列方差积累问题，提高训练稳定性 [48][53][54] - 序列级重要性采样进行长度归一化，避免不同回答长度带来的不稳定，且裁剪时作用于整个序列而非部分token，更符合奖励信号整体性 [56][57][58] - 该方法很可能成为未来后训练强化学习新标准，特别适合专家混合模型场景 [59] GFPO多属性优化 - GFPO解决GRPO依赖单一标量奖励难以联合优化多个属性问题，可同时优化简洁性、准确度等属性 [62][63] - 通过为每个问题采样更大候选响应组并显式过滤不符合目标属性的响应，无需复杂奖励工程即可实现多属性优化 [64][67] - GFPO在Advantage估计层面进行干预，可与任何GRPO类似方法兼容 [68] GRPO其他缺陷 - GRPO将多奖励信号合并为单一标量信号，模型无法区分奖励具体来源行为 [73][75] - 在多轮推理任务中会出现指数级分支问题，导致训练非常困难 [79]

Artificial Intelligence

Artificial Intelligence

GRPO

DAPO

让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源

机器之心· 2025-08-12 17:51

核心观点 - 清华AIR与字节联合SIA Lab发布的DAPO系统实现了大规模LLM强化学习的开源SOTA，使Qwen2.5-32B模型在AIME 2024基准上获得50分 [1] - 刘力源、姚峰团队发现DAPO-32B中rollout生成占70%训练时间，通过8bit量化和TIS技术显著加速训练 [3] - FlashRL是首个开源且可用的强化学习方案，在推理阶段应用INT8/FP8量化且性能与BF16持平 [4][15] - TIS技术解决了量化rollout与训练不匹配问题，使性能达到甚至超过BF16 rollout水平 [16] - FlashRL在32B模型上实现1.75倍加速，在内存受限场景下加速比可达3-5倍 [29][34] 技术突破 - 量化技术应用：在rollout阶段采用8bit量化技术，通过TIS保持下游性能 [3][4] - 性能表现：INT8量化使32B模型吞吐量提升1.75倍，FP8量化性能与BF16相当 [23][29] - 内存优化：在TP2-A6000配置下生成速度提升超3倍，TP1-A100配置下超5倍 [34] - 兼容性：支持INT8/FP8量化，兼容H100和A100 GPU [42] 实验结果 - 模型表现：Qwen2.5-32B在AIME基准上获得50分 [1] - 加速效果：7B模型加速比不足1.2倍，32B模型达1.75倍 [29] - 性能对比：INT8 rollout与BF16 rollout在AIME基准准确率相当 [36] - 训练效率：INT8 rollout单位小时内完成的更新步数显著高于BF16 [39] 应用部署 - 安装使用：通过pip install flash-llm-rl即可安装，无需修改代码 [41] - 技术细节：完整技术方案发布于团队博客 [8][17] - 开源资源：论文和代码已在GitHub开源 [7][8]

强化学习

量化技术

Artificial Intelligence

Artificial Intelligence

FlashRL

DAPO

DeepSeek用的GRPO有那么特别吗？万字长文分析四篇精品论文

机器之心· 2025-05-24 11:13

核心观点 - 文章深入分析了Kimi k1.5、OpenReasonerZero、DAPO和Dr. GRPO四篇论文的创新点，重点探讨了GRPO及其改进算法在推理模型中的应用 [1][3][10] - 当前AI领域推理和强化学习成为热门，但GRPO并非特殊算法，与其他RL算法关系密切 [6][8][11] - 行业正从价值函数转向直接估计优势值，强化学习范式进化是主要推动力 [20] Kimi k1.5 - Kimi k1.5是Kimi团队最新多模态大语言模型，采用强化学习训练，论文长达25页但未开放模型权重 [17][19] - 模型采用简单有效的强化学习框架，无需依赖蒙特卡洛树搜索等复杂技术 [17] - 团队强调提示策划的重要性，采用基于模型的方法评估提示难度 [22] - 训练方案包含SFT预热、长思维链和拒绝采样，后期使用在线策略镜像下降变体 [24] - 研究发现较大模型在token效率方面表现更好，但小模型通过长思维链也能达到相当性能 [29][31] OpenReasonerZero - 这是首篇展示在基础模型上通过RL取得出色结果的研究 [34] - 使用Qwen-32B基座模型达到DeepSeek论文中提到的Qwen-32B RL模型性能 [38] - 研究发现GRPO对其不起作用，使用带GAE的PPO算法效果更好 [42] - 移除KL惩罚能实现最优训练稳定性和最终性能 [44][45] DAPO - DAPO是对GRPO的改进算法，包括分离裁剪超参数、动态采样等创新点 [54][55][56] - 改进包括：两个不同裁剪超参数、移除平坦奖励样本、使用token级损失、管理过长生成 [54][55][56][57] - 建议从GRPO中移除KL散度惩罚以帮助学习 [59] - 通过消融实验显示模型保持更高熵（探索/随机性） [62] Dr. GRPO - 论文提出修改GRPO以改善学习动态，使生成长度增加较少情况下实现更强性能 [76][79] - 核心修改涉及GRPO实现中的常见做法，调整token优势分配方式 [80] - 移除问题级难度偏置，避免对高方差问题的惩罚 [81] - 比较Qwen 2.5、Llama 3.1和DeepSeek基础模型在数学问题上的表现 [85][86] 行业趋势 - 当前所有RL算法在实现层面高度相似，GRPO虽流行但变革聚焦核心维度 [15][16] - 业界逐渐转向直接估计优势值而非价值函数建模 [20] - 数据分布对强化学习效果起关键作用，提示策划和难度评估成为重点 [22][41] - 模型大小与性能关系显示大模型token效率更高，但小模型通过优化也能达到相当效果 [29][31]