MixGRPO

搜索文档
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
量子位· 2025-08-02 16:33
混元基础模型团队 投稿 量子位 | 公众号 QbitAI 图像生成不光要好看,更要高效。 混元基础模型团队提出全新框架 MixGRPO ,该框架通过结合随机微分方程(SDE)和常微分方程(ODE),利用混合采样策略的灵活性, 简化了MDP中的优化流程,从而提升了效率的同时还增强了性能。 基于MixGRPO,研究人员提出了一个更快的变体 MixGRPO-Flash ,在保持相近性能的同时进一步提升了训练效率。 MixGRPO在人类偏好对齐的多个维度上均表现出显著提升,效果和效率均优于DanceGRPO, 训练时间降低近50% 。值得注意的是, MixGRPO-Flash可将 训练时间进一步降低71% 。 | Method | NFETe | NFET | Iteration Time (s)J | | | Human Preference Alignment | | | --- | --- | --- | --- | --- | --- | --- | --- | | | | | | HPS-v2.1↑ | Pick Score↑ | ImageReward↑ | Unified Reward↑ | | FLU ...