DiffMoE
搜索文档
DiffMoE:动态Token选择助力扩散模型性能飞跃,快手&清华团队打造视觉生成新标杆!
机器之心· 2025-05-16 10:42
技术核心突破 - 引入批级全局token池,使专家网络能够跨样本访问全局token分布,模拟完整数据集token分布,提升对复杂噪声模式的学习能力 [5] - 提出动态容量预测器,通过轻量级MLP网络实时调整专家网络计算负载,实现基于噪声水平和样本复杂度的智能资源分配,做到按需计算 [5] - 在训练损失收敛速度上超越同等参数量的密集模型,为多任务处理提供更强上下文感知能力 [5] 性能表现 - 在ImageNet 256×256分类条件图像生成基准测试中,DiffMoE-L-E8模型仅用4.58亿参数(FID50K 2.13),超越了拥有6.75亿参数的Dense-DiT-XL模型(FID 2.19)[8] - 实现仅用1倍激活参数就达到3倍于密集模型的性能,在文本到图像生成任务中同样展现出卓越泛化能力 [8] - 在Flow-ODE配置下,DiffMoE-L-E8模型(458M参数)FID为2.13,优于Dense-DiT-XL模型(675M参数)的2.19 [9] - 在3000K训练步数下,DiffMoE-L-E8模型(458M参数)FID为2.40,接近Dense-DiT-XXL模型(951M参数)的2.41 [9] 模型验证与扩展性 - 模型能够根据样本难度自动分配计算量,在平均激活参数量较低情况下实现性能指标显著提升 [11] - 从小型(32M)到大型(458M)配置,DiffMoE均保持性能正向增长,专家数量从2扩展到16时FID持续下降 [15] - 在文本到图像生成任务中,DiffMoE模型在对象生成、空间定位等关键指标上全面超越Dense基线模型 [16] - 大量实验结果表明,DiffMoE在性能上超越现有TC-MoE和EC-MoE方法,以及激活参数量是其3倍的密集型模型 [17]