Toggle sidebar
Toggle sidebar
全部
智能回答
Search
Search
定价
登录
Group Sequence Policy Optimization (GSPO) 算法
搜索文档
阿里Qwen提出强化学习新算法GSPO
快讯
·
2025-07-27 23:20
据通义千问Qwen,为了能够持续拓展强化学习 (Reinforcement Learning,RL),提出了Group Sequence Policy Optimization (GSPO) 算法。不同于过去的RL算法,GSPO定义了序列级别的重要性比 率,并在序列层面执行裁剪、奖励和优化。 ...
强化学习
Group Sequence Policy Optimization (GSPO) 算法
人工智能
通义千问Qwen
Group Sequence Policy Optimization (GSPO) 算法
强化学习
Group Sequence Policy Optimization (GSPO) 算法
人工智能
通义千问Qwen
Group Sequence Policy Optimization (GSPO) 算法