Workflow
Group Sequence Policy Optimization (GSPO) 算法
icon
搜索文档
阿里Qwen提出强化学习新算法GSPO
快讯· 2025-07-27 23:20
据通义千问Qwen,为了能够持续拓展强化学习 (Reinforcement Learning,RL),提出了Group Sequence Policy Optimization (GSPO) 算法。不同于过去的RL算法,GSPO定义了序列级别的重要性比 率,并在序列层面执行裁剪、奖励和优化。 ...