Diffusion Transformer(DiT)
搜索文档
ICLR 2026 | 复旦&通义万相提出ProMoE,显式路由引导打破DiT MoE scaling瓶颈!
机器之心· 2026-03-31 15:00
混合专家架构在视觉生成领域的挑战与核心问题 - 混合专家架构在大语言模型中成功扩展了模型容量并保持了计算效率,但在应用于视觉生成领域的Diffusion Transformer时收益有限,未能复刻其在语言模型中的成功[2] - 视觉Token与语言Token存在根本差异:视觉Token具有高度空间冗余性和功能异质性,这阻碍了视觉MoE中专家的专业化[3] - 具体而言,语言Token语义密度高、簇间分离良好,而视觉Token较为分散,其类间距离与类内距离的比值量化结果为19.283远大于0.748,证明了视觉Token的冗余性[7] ProMoE框架的创新设计 - 为解决上述问题,研究团队提出了ProMoE框架,其核心是通过两步路由和显式语义路由引导来实现“专家内一致”和“专家间多样”[9] - 第一步为条件路由:根据Token的功能角色进行硬路由分配,无条件图像Token直接分配给专门的无条件专家,条件图像Token则进入下一步,实现了专家的功能隔离[10] - 第二步为原型路由:对于条件图像Token,引入一组可学习的“原型”,通过计算Token与各原型间的余弦相似度得到路由分数,将Token分配给对应专家[10] - 引入路由对比学习作为显式语义路由引导:通过拉近Prototype与分配给它的Token集合质心,以及推开Prototype与其他专家处理的Token集合质心,来增强语义引导和专家多样性[11][13] ProMoE的实验性能与结果 - 在模型配置上,ProMoE系列包含从S到XL的不同规模,例如ProMoE-L总参数量为1.063B,激活参数量为458M[18] - ProMoE在各种规模和设置下稳定超越了稠密模型,参数量仅1.063B的ProMoE-L-Flow,凭借更少的激活参数,超越了计算量更大的Dense-DiT-XL-Flow[19] - 与现有视觉MoE方案对比中,ProMoE-L-Flow以1.063B的总参数量和77.72 GFLOPs的计算量,在FID和IS指标上超越了总参数量1.846B、拥有16个专家的DiffMoE-L-Flow[22][23] - 在GenEval基准测试中,ProMoE在所有子任务上优于标准的Token-Choice MoE模型,展现出更强的泛化能力[24][25] - 训练曲线显示ProMoE的收敛速度明显快于稠密模型和现有MoE模型,并且随着模型尺寸从Base扩展至XL,以及专家数量从4增加到16,其生成性能均呈现稳定提升,展现出扩展潜力[28][31]