Workflow
DanceGRPO:首个统一视觉生成的强化学习框架
机器之心·2025-05-14 16:09

本文由字节跳动 Seed 和香港大学联合完成。第一作者薛泽岳为香港大学 MMLab@HKU 在读博士生,在 CVPR、NeurIPS 等国际顶级会议上发表多篇研究成果。 项目通讯作者为黄伟林博士和罗平教授。 R1 横空出世,带火了 GRPO 算法,RL 也随之成为 2025 年的热门技术探索方向,近期,字节 Seed 团队就在图像生成方向进行了相关探索。 现在,我们推出名为 DanceGRPO 的创新框架,这是首个旨在统一视觉生成强化学习的解决方案,实现了单一强化学习算法在两大生成范式(diffusion/rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五类奖励模型(图像 / 视频美 学、图文对齐、视频动态质量、二元奖励)中的全面覆盖。 论文标题: DanceGRPO: Unleashing GRPO on Visual Generation arXiv 链接:https://arxiv.org/pdf/2505.07818 动机 在生成式 AI 快速发展的这三年,RLHF 逐渐的走进了大家的 ...