Workflow
捷径化概率流路径
icon
搜索文档
ICLR 2026 | ESC — 解构一步生成,厘清细节,探寻本质
机器之心· 2026-03-24 11:59
一步扩散生成模型的设计框架与核心思想 - 西湖大学的研究提出了一个统一的设计框架,指出无论是离散时间还是连续时间的一步生成方法,其背后都遵循着同一个基本原则:用单步参数化预测去逼近一个两步扩散构建的目标[5] - 这一框架将原本耦合的生成方法模块拆解开来,使研究人员能更清晰地理解各个组件如何协同工作,以及设计中保留了多少可调整的自由度[5] 现有方法的组件级分析与关键发现 - 通过对路径选择、时间采样器等关键模块进行细粒度分析,定位了影响训练-推理稳定性及逼近误差的一个关键来源:损失函数设计中,学习目标里的速度场监督带来的方差[7] - 在实际训练中,用于构建监督目标的状态会偏离理想的轨迹状态,从而引入偏差和方差,这解释了为何遵循相同高层原理的不同捷径设计会产生明显不同的性能[12] 关键设计组件的选择与影响 - 在路径选择上,线性路径与余弦路径的对比实验表明,在线性路径与余弦路径的对比中,线性路径在一步生成的设定下通常更有竞争力,因为其对应的边缘速度场具有更低的凸运输代价,使得监督目标更接近理想情形[16] - 在损失类型上,连续时间一步扩散模型整体上明显优于离散时间变体,因为连续时间方法的误差上界相比离散时间方法少了一项与局部Lipschitz常数、时间步长以及监督方差耦合的额外误差项[17] - 在时间采样上,固定终点时间(r=0)能带来更快的早期收敛,而随机化时间r能让模型接触到更丰富的中间路径信号,从而更好地学习整体的捷径模式,这更像是在“早期易学性”与“最终生成与表达能力”之间的阶段性取舍[18] 提出的改进方法:ESC - 第一个改进方向是使用“即插即用的理想速度”,通过在一个mini-batch内组合多个样本的条件速度,在仅引入较小偏差的代价下,将监督方差从依赖单样本的水平降到与批次大小相关的更低水平,从而带来更稳定的训练监督和更低的一步推理误差[20][21] - 第二个改进方向是设计“渐进式时间采样器”,在训练初期以较高概率采样r=0,随着训练推进再逐步衰减这一概率,最终完全过渡到随机时间采样,从而同时兼顾前期收敛速度和后期全局建模能力[22] - 第三个改进方向是整合已有的有效训练技巧,如variational adaptive loss weighting,并在classifier-free guidance训练场景下引入类别一致的批次处理技术,以提升训练稳定性[23] ESC的实验性能与评估 - 在ImageNet 256×256数据集上,基于SiT-XL/2架构,ESC在1-NFE设置下达到FID50k 2.85,ESC+(训练480个epoch)达到FID50k 2.53,超越了此前所有从头训练的捷径扩散模型[7][27] - ESC的性能大幅超越了基线方法MeanFlow(1-NFE FID50k 3.43),甚至超过了MeanFlow的两步生成结果(2-NFE,FID50k 2.93)[27][30] - 消融实验表明,结合了即插即用速度、渐进时间采样器等技巧的ESC(SiT-B/2架构)将FID50k从基线6.09提升至5.77[25] - 即插即用的理想速度几乎不增加计算开销(仅千分之九),同时提高稳定性[29] - 性能提升在更大的骨干网络上更明显,表明降低方差对于模型稳定性的提升,随着模型容量增长,效果越来越明显[30]