重要性采样

搜索文档
如何准备RL面试相关的问题?
自动驾驶之心· 2025-09-13 00:03
作者 | Abel chen 编辑 | 自动驾驶之心 原文链接: https://zhuanlan.zhihu.com/p/1948681769332240910 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 本文只做学术分享,如有侵权,联系删文 1. GRPO是on policy还是off policy?为什么? 简短答案: GRPO 最初设计和常用实现是 on-policy(在线/近端策略式) ;但它可以被扩展为 off-policy,已有工作专门研究这种扩展及其优缺点。 为什么是 on-policy(解释) 为什么有人说可以 off-policy(扩展) 最近有工作把 GRPO 的思想推广到 off-policy 场景(比如用来自别的策略 / 旧批次的数据来估计优势并做修正),并且报告了在样本效率、稳定性等方面的潜在好 处与权衡。也就是说,虽然 GRPO 本质上是基于 on-policy 的 surrogate objective,但数学上和工程上可以设计重要性采样、批内归一化或裁剪等技巧把它改成 off- policy 版本。 实践建议(简要) ...
DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
机器之心· 2025-08-07 17:42
大型语言模型训练技术演进 - 大型语言模型训练分为两个阶段:预训练阶段通过大规模文本数据集训练模型预测下一个词,后训练阶段旨在提升模型理解和执行人类指令的能力[1] - 后训练阶段采用强化学习技术,OpenAI首创基于人类反馈的强化学习(RLHF),依赖人工标注但成本高效率低[2] - DeepSeek创新性地用自动化RL技术替代人工评估,通过奖励信号自主学习,显著降低成本并提高效率[2] 强化学习算法对比 - OpenAI在ChatGPT中采用近端策略优化(PPO)算法[3] - DeepSeek提出组相对策略优化(GRPO)算法,通过组样本价值估计提升效率,成为DeepSeek-R1核心技术[3] - Qwen团队指出GRPO存在稳定性问题,提出组序列策略优化(GSPO)算法,在Qwen3系列模型中实现更稳定训练[10][22] GRPO的技术缺陷 - GRPO采用逐token重要性采样,导致长序列训练中方差累积和梯度不稳定[11][16] - 在MoE模型中问题加剧,10%的专家网络激活变化导致训练低效[25] - 实验显示GRPO在CodeForces任务中得分收敛于2000分以下,而GSPO持续提升展现更强可扩展性[20] GSPO的创新优势 - 将重要性采样提升至序列级别并通过长度归一化,显著降低方差[23] - 无需Routing Replay等辅助策略即可稳定训练MoE模型,保留架构潜力[27] - 在48层Qwen3-30B-A3B-Base模型训练中,消除10%专家网络激活差异问题[25] 行业技术发展趋势 - Qwen3系列模型通过GSPO在知识数学、编程等测评中超越Kimi-K2、Claude-Opus4等顶级模型[5] - 实验证明GSPO训练效率显著高于GRPO,可能成为后训练强化学习新标准[31] - 行业共识认为强化学习在后训练阶段对提升大语言模型推理能力至关重要[31]