Workflow
流匹配模型
icon
搜索文档
加速近5倍!北大与字节团队提出BranchGRPO,用「树形分叉 + 剪枝」重塑扩散模型对齐
机器之心· 2025-09-22 15:26
研究背景与挑战 - 扩散模型与流匹配模型已成为视觉生成主流方案 但仅靠预训练无法保证与人类意图完全对齐 [5] - 人类反馈强化学习(RLHF)被引入以优化生成模型 使其输出更贴近人类偏好 [6] - 群体相对策略优化(GRPO)在应用中面临两大瓶颈: 采样复杂度达O(N×T)导致低效性 以及稀疏奖励导致训练波动大和收敛不稳 [8] BranchGRPO方法创新 - 通过树形分叉结构在扩散过程中实现多轨迹共享前缀 在中间步骤分裂 大幅减少冗余采样 [11] - 采用奖励融合与逐层归因机制 将叶子节点奖励自底向上传递并在每一深度标准化 形成逐步稠密的优势信号 [14] - 设计宽度剪枝和深度剪枝两种策略 避免树形结构带来的指数级成本 [14] 性能表现:图像对齐 - 迭代时间显著缩短: DanceGRPO需698秒 BranchGRPO仅493秒 剪枝版314秒 Mix变体148秒(相对加速近4.7倍) [15] - 对齐效果更优: HPS-v2.1得分0.363–0.369 稳定高于DanceGRPO的0.360 ImageReward得分1.319为全表最佳 [15] - Mix变体在极致加速的同时保持与原始BranchGRPO相当的对齐效果和训练稳定性 [16] 性能表现:视频生成 - 生成质量提升: 视频帧更锐利 细节更丰富 角色和物体在时间维度上保持一致 [18] - 训练效率翻倍: DanceGRPO每次迭代需近20分钟 BranchGRPO仅需约8分钟 [19] 扩展性与多样性 - 多样性保持良好: 分叉未削弱样本分布 MMD²≈0.019 几乎与顺序采样一致 [24] - 扩展性优异: 在81样本规模下 DanceGRPO迭代需2400秒 BranchGRPO仅需680秒 [27] - 性能随分支规模扩大持续提升 使大规模对齐训练变得可行 [27] 应用前景 - 未来可通过引入自适应分裂/剪枝策略 拓展至多模态与更大规模生成任务 [30] - 有望成为扩散/流模型RLHF的核心方法 为高效稳定的人类偏好对齐提供新范式 [30]
首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o
机器之心· 2025-05-13 15:08
核心观点 - 流匹配模型在复杂场景和文本渲染任务中存在困难,在线强化学习在图像生成领域应用仍处于初步阶段 [1] - Flow-GRPO 是首个将在线强化学习引入流匹配模型的工作,显著提升模型性能 [2] - Flow-GRPO 通过 ODE-SDE 等价转换和去噪步数减负两项关键策略提升训练效率 [6][8] - Flow-GRPO 在 GenEval 基准测试中准确率从 63% 提升到 95%,超越 GPT-4o [14] - Flow-GRPO 为流匹配模型在可控性、组合性和推理能力方面开辟了新范式 [23] 核心思路与框架概览 - ODE-SDE 等价转换:将确定性 ODE 转换为随机 SDE,为 RL 提供探索空间 [8][9] - 去噪步数减负:训练时减少生成步数(40 步减到 10 步),推理时保持完整步数,提升训练效率 [8][12] 核心实验效果 - 复杂组合生成能力大幅提升:GenEval 基准上 SD3.5-M 准确率从 63% 提升至 95% [14] - 文字渲染精准无误:视觉文本渲染准确率从 59% 提升至 92% [19] - 人类偏好对齐任务取得显著进步,图像质量和多样性未受影响 [21] 总结与展望 - Flow-GRPO 揭示了利用在线强化学习持续提升流匹配模型性能的可行路径 [23] - 为图像、视频、3D 等多模态生成任务提供了新范式 [23]