研究背景与动机 - 视觉生成领域RLHF方案成熟度显著低于LLM领域,现有主流方案存在效果微弱或显存压力大的问题[4][5] - 当前强化学习优化生成模型的探索存在数据集小(<100 prompts)、仅支持文生图等局限性[5] - GRPO算法因R1工作成为2025年热门技术方向,促使团队在图像生成领域进行创新探索[2] 技术方案创新 - 首创DanceGRPO框架,实现单一强化学习算法覆盖两大生成范式(diffusion/rectified flow)、三项任务(文生图/文生视频/图生视频)[2][8] - 支持四种基础模型(SD/HunyuanVideo/FLUX/SkyReels-I2V)和五类奖励模型(美学/对齐/动态质量等)[2][10] - 采用GRPO策略优化但去除KL散度正则项,通过相同prompt噪声初始化防止reward hacking[9] 核心实验发现 - 训练策略:采样子集timesteps加速训练,多reward模型叠加时采用多advantage叠加方式[9] - 性能影响:强化学习会削弱生成多样性,训练时应避免开启cfg或限制单prompt梯度更新次数[9] - 视频任务:i2v任务需专注motion quality奖励,使用视觉美感奖励易导致模型发散[14] 实验结果数据 - HunyuanVideo训练后VQ指标提升45%(4.51→6.52),MQ指标激增181%(1.37→3.85)[12] - FLUX模型在HPS-v2.1&CLIP Score组合下GenEval得分达0.705,较基线提升7%[12] - Stable Diffusion结合双奖励模型时CLIP Score提升8.8%(0.363→0.395)[12] 技术实现细节 - 通过建模diffusion/rectified flow为stochastic interpolant实现SDE采样方程统一[9] - 创新提出二元奖励模型(阈值化处理美感&图文匹配结果)作为第五类评估维度[10] - 可视化验证显示FLUX训练过程中ODE solver能保持稳定输出[15]
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心·2025-05-14 16:09