西湖大学提出RDPO强化学习框架,实现扩散模型并行推理加速
量子位·2026-01-13 15:21

行业技术趋势 - 扩散模型顺序去噪的特性导致采样延迟高,成为速度提升的瓶颈 [2] - 世界模型实时生成高清视频的浪潮正在冲击传统逐张生成高分辨率图像的时代 [1] 技术问题与现有方案局限 - 扩散模型因顺序去噪面临高采样延迟问题 [5] - 现有基于求解器的加速方法在低延迟预算下常导致严重的图像质量退化,主要原因是无法捕获高曲率轨迹段导致的累积截断误差 [5] 西湖大学AGI Lab提出的解决方案:EPD-Solver与RDPO框架 - 提出集成并行方向求解器,通过整合多个并行梯度评估来减少截断误差 [5] - EPD-Solver利用采样轨迹受限于低维流形的几何洞察,通过向量值函数均值定理更准确地逼近积分解 [5] - 额外的梯度计算相互独立,可完全并行化,从而保持低延迟采样特性 [6] - 引入两阶段优化框架:先通过蒸馏方法优化可学习参数,再通过RDPO框架进行强化学习微调 [6] - RDPO框架将求解器重构为随机的狄利克雷策略,优化严格在低维求解器空间内运行 [6] - 该方法可作为插件改进现有的ODE采样器 [6] RDPO框架的核心设计原理 - 设计精髓是先找准基准线,再做残差微调 [12] - 将任务转化为低维空间的策略优化问题,不暴力拆解模型本体,而是锁定求解器的参数空间 [11][13] - 第一阶段利用轨迹蒸馏技术,让EPD-Solver学习高精度教师求解器的采样路径,确保基本盘正确 [13] - 第二阶段进行残差策略优化,RL并非从零开始,而是以第一阶段参数为起点,只学习极小的残差项 [14][15] - 优化空间被严格限制在求解器参数层面,采样轨迹被约束在数学上的单纯形空间内,有效缓解了奖励作弊现象 [6][17][19] 技术性能与实验结果 - 在相同步数下,该方法在CIFAR-10、FFHQ、ImageNet等多个基准测试中取得领先的图像生成效果 [6] - 在Text-to-Image任务中,经过RDPO优化的EPD-Solver显著提升了Stable Diffusion v1.5和SD3-Medium的生成能力,在更少的步数下达到更优的质量 [7] - 定量测试显示,在NFE=20的设置下,EPD-Solver在10步时HPSv2.1得分为0.2823,优于DDIM(20步,0.2769)、Heun(10步,0.2707)、DPM-Solver-2(10步,0.2759)和iPNDM(20步,0.2805) [23] 技术影响与潜力 - 该方法证明了高质量的生成不一定要靠堆算力硬磕大模型参数,巧妙的优化策略能以极小代价换取极大增益 [23] - 不仅解决了加速问题,更提供了一种极其稳健的RLHF对齐新范式 [23] - 展示出在低延迟高质量生成任务中的巨大潜力 [6]

西湖大学提出RDPO强化学习框架,实现扩散模型并行推理加速 - Reportify