流匹配模型 - 财报，业绩电话会，研报，新闻

流匹配模型

搜索文档

加速近5倍！北大与字节团队提出BranchGRPO，用「树形分叉 + 剪枝」重塑扩散模型对齐

机器之心· 2025-09-22 15:26

研究背景与挑战 - 扩散模型与流匹配模型已成为视觉生成主流方案但仅靠预训练无法保证与人类意图完全对齐 [5] - 人类反馈强化学习(RLHF)被引入以优化生成模型使其输出更贴近人类偏好 [6] - 群体相对策略优化(GRPO)在应用中面临两大瓶颈: 采样复杂度达O(N×T)导致低效性以及稀疏奖励导致训练波动大和收敛不稳 [8] BranchGRPO方法创新 - 通过树形分叉结构在扩散过程中实现多轨迹共享前缀在中间步骤分裂大幅减少冗余采样 [11] - 采用奖励融合与逐层归因机制将叶子节点奖励自底向上传递并在每一深度标准化形成逐步稠密的优势信号 [14] - 设计宽度剪枝和深度剪枝两种策略避免树形结构带来的指数级成本 [14] 性能表现:图像对齐 - 迭代时间显著缩短: DanceGRPO需698秒 BranchGRPO仅493秒剪枝版314秒 Mix变体148秒(相对加速近4.7倍) [15] - 对齐效果更优: HPS-v2.1得分0.363–0.369 稳定高于DanceGRPO的0.360 ImageReward得分1.319为全表最佳 [15] - Mix变体在极致加速的同时保持与原始BranchGRPO相当的对齐效果和训练稳定性 [16] 性能表现:视频生成 - 生成质量提升: 视频帧更锐利细节更丰富角色和物体在时间维度上保持一致 [18] - 训练效率翻倍: DanceGRPO每次迭代需近20分钟 BranchGRPO仅需约8分钟 [19] 扩展性与多样性 - 多样性保持良好: 分叉未削弱样本分布 MMD²≈0.019 几乎与顺序采样一致 [24] - 扩展性优异: 在81样本规模下 DanceGRPO迭代需2400秒 BranchGRPO仅需680秒 [27] - 性能随分支规模扩大持续提升使大规模对齐训练变得可行 [27] 应用前景 - 未来可通过引入自适应分裂/剪枝策略拓展至多模态与更大规模生成任务 [30] - 有望成为扩散/流模型RLHF的核心方法为高效稳定的人类偏好对齐提供新范式 [30]

首次！流匹配模型引入GRPO，GenEval几近满分，组合生图能力远超GPT-4o

机器之心· 2025-05-13 15:08

核心观点 - 流匹配模型在复杂场景和文本渲染任务中存在困难，在线强化学习在图像生成领域应用仍处于初步阶段 [1] - Flow-GRPO 是首个将在线强化学习引入流匹配模型的工作，显著提升模型性能 [2] - Flow-GRPO 通过 ODE-SDE 等价转换和去噪步数减负两项关键策略提升训练效率 [6][8] - Flow-GRPO 在 GenEval 基准测试中准确率从 63% 提升到 95%，超越 GPT-4o [14] - Flow-GRPO 为流匹配模型在可控性、组合性和推理能力方面开辟了新范式 [23] 核心思路与框架概览 - ODE-SDE 等价转换：将确定性 ODE 转换为随机 SDE，为 RL 提供探索空间 [8][9] - 去噪步数减负：训练时减少生成步数（40 步减到 10 步），推理时保持完整步数，提升训练效率 [8][12] 核心实验效果 - 复杂组合生成能力大幅提升：GenEval 基准上 SD3.5-M 准确率从 63% 提升至 95% [14] - 文字渲染精准无误：视觉文本渲染准确率从 59% 提升至 92% [19] - 人类偏好对齐任务取得显著进步，图像质量和多样性未受影响 [21] 总结与展望 - Flow-GRPO 揭示了利用在线强化学习持续提升流匹配模型性能的可行路径 [23] - 为图像、视频、3D 等多模态生成任务提供了新范式 [23]

流匹配模型

在线强化学习

Artificial Intelligence

Artificial Intelligence

Flow-GRPO

SD3.5 Medium

GPT4o