Diffusion Transformers

搜索文档
人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展
机器之心· 2025-06-26 14:10
核心观点 - 中国人民大学高瓴人工智能学院和字节跳动Seed团队合作,将大语言模型训练中的μP理论扩展到diffusion Transformers的训练中,实现了不同大小模型共享最优超参,显著减少超参搜索耗费 [1][2] - 在DiT、PixArt和MMDiT上的实验验证表明,小模型搜索的超参可直接用于大模型训练,计算量仅为人工手调的3%左右,且效果优于人工基线 [2][21][24] - μP理论通过调整网络不同模块的初始化和学习率,使得超参在不同规模diffusion Transformers间可迁移,解决了大规模模型训练中超参调优难题 [7][10] μP理论背景 - μP全称为最大更新参数化,是Tensor Program无穷宽网络理论系列的重要成果,已被证明适用于标准Transformer架构 [7] - μP算法实现简洁,只需调整隐藏层学习率和输出层权重系数及初始化,即可实现不同大小Transformer共享最优超参 [7] - μP已被成功应用于大语言模型预训练,带来稳定的超参迁移性质 [7] diffusion Transformers的挑战 - diffusion Transformers在架构上引入了额外模块处理文本信息,任务目标也与语言模型不同,导致已有μP形式不一定适用 [8] - 团队从理论和实践上系统研究了主流diffusion Transformers(DiT、U-ViT、PixArt-α、MMDiT)的μP形式 [9][10] 实验验证 DiT网络验证 - 在ImageNet数据集上验证:当网络宽度、批量大小和训练步数足够大时,超参可稳定迁移 [12] - 将最优超参迁移到DiT-XL-2训练,收敛速度达原论文的2.9倍(2.4M步即超过7M步效果) [15] PixArt-α验证 - 在0.04B代理模型搜索学习率后迁移到0.61B模型,搜索计算量仅为一次训练的5.5% [20] - μP版本在训练中稳定优于基线效果 [20] MMDiT大规模验证 - 在18B规模验证,0.18B模型搜索超参计算量仅为人工手调的3% [21][24] - 学习率影响最关键,warmup步数影响不大,迁移到18B模型后效果稳定优于人工基线 [21][24]
李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了
机器之心· 2025-06-10 16:41
模型架构设计 - 模型架构设计在机器学习中扮演核心角色,定义了模型函数、算子选择和配置设定等要素 [2] - 从头训练模型成本过高,研究新架构具有挑战性,尤其对生成模型而言 [3] 嫁接技术 - 提出「嫁接」技术,通过编辑预训练 Diffusion Transformers(DiTs)探索新架构设计,减少计算量 [1] - 嫁接过程分为两阶段:激活蒸馏实现算子功能迁移,轻量级调优减轻误差传播 [6][7] - 架构编辑策略包括添加、删除和替换算子 [8] 实验设计与结果 - 基于 DiT-XL/2 构建测试平台,开发混合设计:用门控卷积、局部注意力等取代 Softmax 注意力,用可变扩展率 MLP 取代原 MLP [12] - 混合设计使用不到 2% 的预训练计算资源,FID 达 2.38–2.64(基线为 2.27) [13] - 嫁接文本转图像模型 PixArt-Σ 实现 1.43 倍加速,GenEval 分数下降不到 2% [13] 自嫁接基准 - 自嫁接将现有算子替换为同类型随机初始化算子,保持计算图结构 [21] - 自嫁接作用:评估嫁接流程效果、提供性能基准、研究影响因素 [21] - 使用 10% 数据完全自嫁接可实现接近基线性能 [28] 激活行为与回归目标 - MHA 和 MLP 算子激活值差异较大,尤其在深层 [22] - 回归目标选择影响性能:MHA 最佳 FID 2.51(L1),MLP 最佳 FID 2.33(L2) [26] - 高质量初始化需要量身定制的激活感知策略 [27] 混合架构实验结果 - 交错替换策略下,SWA、Hyena-X/Y 和 Mamba-2 等替代方案 FID 与基线差距在 0.5 以内 [36] - 完全替换性能急剧恶化(FID > 75),表明仅部分层适合嫁接 [37] - 嫁接在较小计算预算下构建高效混合架构,交错设计尤其有效 [41] 文本到图像应用 - 嫁接模型实时计算速度提升 1.43 倍,GenEval 分数仅小幅下降(47.78 vs 49.75) [42] - 特定属性指标保持可比,但局部纹理区域存在失真 [42] - 嫁接技术成功应用于文生图 DiTs,实现显著加速且质量损失极小 [43]