专家混合模型(Mixture-of-Experts

搜索文档
DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
机器之心· 2025-08-07 17:42
大型语言模型训练技术演进 - 大型语言模型训练分为两个阶段:预训练阶段通过大规模文本数据集训练模型预测下一个词,后训练阶段旨在提升模型理解和执行人类指令的能力[1] - 后训练阶段采用强化学习技术,OpenAI首创基于人类反馈的强化学习(RLHF),依赖人工标注但成本高效率低[2] - DeepSeek创新性地用自动化RL技术替代人工评估,通过奖励信号自主学习,显著降低成本并提高效率[2] 强化学习算法对比 - OpenAI在ChatGPT中采用近端策略优化(PPO)算法[3] - DeepSeek提出组相对策略优化(GRPO)算法,通过组样本价值估计提升效率,成为DeepSeek-R1核心技术[3] - Qwen团队指出GRPO存在稳定性问题,提出组序列策略优化(GSPO)算法,在Qwen3系列模型中实现更稳定训练[10][22] GRPO的技术缺陷 - GRPO采用逐token重要性采样,导致长序列训练中方差累积和梯度不稳定[11][16] - 在MoE模型中问题加剧,10%的专家网络激活变化导致训练低效[25] - 实验显示GRPO在CodeForces任务中得分收敛于2000分以下,而GSPO持续提升展现更强可扩展性[20] GSPO的创新优势 - 将重要性采样提升至序列级别并通过长度归一化,显著降低方差[23] - 无需Routing Replay等辅助策略即可稳定训练MoE模型,保留架构潜力[27] - 在48层Qwen3-30B-A3B-Base模型训练中,消除10%专家网络激活差异问题[25] 行业技术发展趋势 - Qwen3系列模型通过GSPO在知识数学、编程等测评中超越Kimi-K2、Claude-Opus4等顶级模型[5] - 实验证明GSPO训练效率显著高于GRPO,可能成为后训练强化学习新标准[31] - 行业共识认为强化学习在后训练阶段对提升大语言模型推理能力至关重要[31]