DanceGRPO：首个统一视觉生成的强化学习框架

研究背景与动机 - 视觉生成领域RLHF方案成熟度显著低于LLM领域，现有主流方案存在效果微弱或显存压力大的问题[4][5] - 当前强化学习优化生成模型的探索存在数据集小（<100 prompts）、仅支持文生图等局限性[5] - GRPO算法因R1工作成为2025年热门技术方向，促使团队在图像生成领域进行创新探索[2] 技术方案创新 - 首创DanceGRPO框架，实现单一强化学习算法覆盖两大生成范式（diffusion/rectified flow）、三项任务（文生图/文生视频/图生视频）[2][8] - 支持四种基础模型（SD/HunyuanVideo/FLUX/SkyReels-I2V）和五类奖励模型（美学/对齐/动态质量等）[2][10] - 采用GRPO策略优化但去除KL散度正则项，通过相同prompt噪声初始化防止reward hacking[9] 核心实验发现 - 训练策略：采样子集timesteps加速训练，多reward模型叠加时采用多advantage叠加方式[9] - 性能影响：强化学习会削弱生成多样性，训练时应避免开启cfg或限制单prompt梯度更新次数[9] - 视频任务：i2v任务需专注motion quality奖励，使用视觉美感奖励易导致模型发散[14] 实验结果数据 - HunyuanVideo训练后VQ指标提升45%（4.51→6.52），MQ指标激增181%（1.37→3.85）[12] - FLUX模型在HPS-v2.1&CLIP Score组合下GenEval得分达0.705，较基线提升7%[12] - Stable Diffusion结合双奖励模型时CLIP Score提升8.8%（0.363→0.395）[12] 技术实现细节 - 通过建模diffusion/rectified flow为stochastic interpolant实现SDE采样方程统一[9] - 创新提出二元奖励模型（阈值化处理美感&图文匹配结果）作为第五类评估维度[10] - 可视化验证显示FLUX训练过程中ODE solver能保持稳定输出[15]