GSPO - 财报，业绩电话会，研报，新闻

GSPO

搜索文档

自动驾驶之心· 2025-09-13 00:03

GRPO策略类型分析 - GRPO最初设计和常用实现是在线策略(on-policy)方法其优势估计依赖于当前策略生成的样本[3][6] - 通过重要性采样等技术可扩展为离线策略(off-policy)版本已有工作研究这种扩展在样本效率和稳定性方面的权衡[3][4] - 原始GRPO使用当前策略生成的一组候选完成来计算组内相对优势并在此批次上构造类似PPO的代理目标更新策略[5][6] 重要性采样技术 - 重要性采样是离线策略评估的核心方法通过行为策略数据评估目标策略价值[8] - 核心公式使用重要性权重修正分布差异单步权重为$w_t=\frac{\pi_t(a_t|s_t)}{\pi_b(a_t|s_t)}$ 轨迹权重为$W_T=\prod_{t=0}^T w_t$[12][13] - 加权重要性采样通过归一化权重降低方差公式为${\hat{V}}^{\pi_t}(s_0)=\sum_{i=1}^N\left(\frac{W_T^{(i)}}{\sum_{j=1}^N W_T^{(j)}}\right)\cdot G_0^{(i)}$[16] GSPO与DAPO算法改进 - GSPO解决GRPO/PPO在长序列训练中的高方差问题将重要性比率提升到序列级并做长度归一化[18][22] - DAPO针对长思维链训练提出四项工程技术：非对称裁剪动态采样 token级策略梯度损失和过长奖励整形[20][24] - GSPO目标函数为$J_{\mathrm{GSPO}}(\theta)=\mathbb{E}_{x\sim D,\{y_i\}\sim\pi_{\mathrm{id}}}\left[\frac{1}{G}\sum_{i=1}^G\operatorname*{min}\Bigl(s_i(\theta)\hat{A}_i,\mathrm{clip}(s_i(\theta),1-\varepsilon,1+\varepsilon)\hat{A}_i\Bigr)\right]$[23] 熵崩溃问题与解决方案 - 熵崩溃指策略熵急速下降导致确定性输出在训练阶段需要避免以保持探索能力[27][33] - 解决方案包括熵正则化 KL约束非对称裁剪动态采样和序列级重要性比率[32][37] - 监控指标包括策略熵曲线 KL距离变化和奖励分布特征[35][36] 奖励劫持与熵崩溃关系 - 奖励劫持是目标错位问题熵崩溃是策略行为失衡症状二者常相互强化形成恶性循环[41][51] - 奖励劫持导致策略快速确定化熵崩溃使系统难以跳出奖励劫持的局部最优[43][44] - 解决方案需从奖励设计和训练稳定性两端入手包括修正奖励函数增加惩罚项和使用多样化评价信号[47][51] MLA加速推理技术 - MLA通过低秩潜在向量压缩Key/Value 只缓存潜在向量而非完整K/V[52][55] - 在内存带宽受限场景可减少45% KV缓存内存实现1.3-1.8倍推理加速[52][64] - 技术实现包括潜在向量压缩和实时上投影计算公式为$C_t = X_t W_C$ $K = C W_{K\_up}$ $V = C W_{V\_up}$[54][61]