核心观点 - 微软研究员提出了一种名为 Group Filtered Policy Optimization (GFPO) 的新型强化学习算法,旨在解决推理模型中因强化学习导致的冗长响应问题,同时保持准确度 [2][3] - GFPO 通过采样更大的候选响应组并显式过滤所需属性(如简洁性),可在推理阶段将多余 token 长度削减多达 80% [3][11] - 该算法无需复杂奖励工程即可同时优化多个响应属性(如长度和准确度),且与现有 GRPO 变体兼容 [11][14] 技术背景 - GFPO 基于 DeepSeek 提出的组相对策略优化(GRPO),后者简化了近端策略优化(PPO)算法,但依赖单一标量奖励信号导致响应长度膨胀 [7][8] - GRPO 的局限性在于难以联合优化多个响应属性,例如准确度提升伴随长度增加 [8] GFPO 实现机制 - 核心方法:为每个问题采样更大响应组(G),按指标(如长度)过滤出前 k 个响应子集(S),仅用 S 计算策略梯度 [12] - 优势归一化:使用子集 S 的奖励均值(μ_S)和标准差(σ_S)归一化优势,优先奖励过滤后高奖励响应 [13] - 训练成本:采样更多响应增加训练开销,但推理阶段更短响应可抵消成本 [15] 自适应难度 GFPO - 动态调整留存响应数量(k):根据问题难度(奖励均值)分配 k 值(简单 4/中等 6/困难 8),聚焦计算资源于难题 [21] - 效果:减少简单问题冗长,同时通过保留更多推理链维持难题准确度 [21] 实验发现 长度缩减效果 - token 效率优化实现最大幅度缩减:在 AIME 24、GPQA、OmniMATH 等数据集上分别减少 84.6%、79.7%、82.6% 多余长度 [31] - 极端冗长响应(≥20k token)比例从 32% 降至 22% [39] 准确度表现 - 自适应难度 GFPO 在中等和极难问题上准确度超越 GRPO,同时缩短 47%-60% 长度 [40] - 更大分组规模(如 8/24)通过更多采样维持难题准确度 [40] 关键参数影响 - 留存响应比例(k/G)25-33% 为最佳平衡点,保留比例越小长度增益递减 [28] - 分组规模(G)扩大可提升难题准确度,如 Shortest 8/24 与 GRPO 准确度相当 [40] 应用场景扩展 - GFPO 可集成事实性、多样性等指标优化其他属性,适用于推理解答验证(AIME 25 解答步骤冗长减少 94.4%)[16][44]
冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世