Grafting（嫁接）

搜索文档

量子位· 2025-06-20 13:53

预训练模型架构探索新方法 - 提出"嫁接"技术可直接修改预训练模型组件来研究新架构，避免从头训练的高成本[2] - 该方法类比软件开发中的代码复用逻辑，显著提升研究效率[3] - 在DiTs模型测试中，混合设计仅需2%预训练计算量即可保持原模型性能[5] 技术实现细节 - 采用两阶段架构编辑法：激活蒸馏（L1/L2损失函数）和轻量级微调（5×10-5权重衰减）[16] - 自嫁接对照实验显示仅需8k样本初始化，10%训练数据微调即可恢复模型性能[19] - 计算图修改涉及MHA/MLP算子替换，需解决新算子初始化和误差累积两大问题[14][15] 实验验证结果 - 混合架构实验：50% MHA替换为SWA时FID仅增0.4，全替换导致FID>75[20] - 文生图模型PixArt-Σ经嫁接后生成速度提升1.43倍（235ms→164ms），质量下降<2%[23][24] - 并行化改造使DiT-XL/2深度减半（28→14层）仍保持更优生成质量[25][26] 应用价值与局限 - 22种嫁接模型已开源，涵盖MLP宽度调整（r=3/6）和Hyena系列算子替换[22][29] - 当前局限在于仅验证DiT-XL/2模型及特定算子替换方案[27] - 方法显著降低架构探索门槛，尤其适合计算资源有限场景[28]

Grafting（嫁接）

两阶段架构编辑法

Artificial Intelligence

Artificial Intelligence

DiTs

PixArt-Σ

李飞飞团队新作：DiT不训练直接改架构，模型深度减半，质量还提高了

机器之心· 2025-06-10 16:41

模型架构设计 - 模型架构设计在机器学习中扮演核心角色，定义了模型函数、算子选择和配置设定等要素 [2] - 从头训练模型成本过高，研究新架构具有挑战性，尤其对生成模型而言 [3] 嫁接技术 - 提出「嫁接」技术，通过编辑预训练 Diffusion Transformers（DiTs）探索新架构设计，减少计算量 [1] - 嫁接过程分为两阶段：激活蒸馏实现算子功能迁移，轻量级调优减轻误差传播 [6][7] - 架构编辑策略包括添加、删除和替换算子 [8] 实验设计与结果 - 基于 DiT-XL/2 构建测试平台，开发混合设计：用门控卷积、局部注意力等取代 Softmax 注意力，用可变扩展率 MLP 取代原 MLP [12] - 混合设计使用不到 2% 的预训练计算资源，FID 达 2.38–2.64（基线为 2.27） [13] - 嫁接文本转图像模型 PixArt-Σ 实现 1.43 倍加速，GenEval 分数下降不到 2% [13] 自嫁接基准 - 自嫁接将现有算子替换为同类型随机初始化算子，保持计算图结构 [21] - 自嫁接作用：评估嫁接流程效果、提供性能基准、研究影响因素 [21] - 使用 10% 数据完全自嫁接可实现接近基线性能 [28] 激活行为与回归目标 - MHA 和 MLP 算子激活值差异较大，尤其在深层 [22] - 回归目标选择影响性能：MHA 最佳 FID 2.51（L1），MLP 最佳 FID 2.33（L2） [26] - 高质量初始化需要量身定制的激活感知策略 [27] 混合架构实验结果 - 交错替换策略下，SWA、Hyena-X/Y 和 Mamba-2 等替代方案 FID 与基线差距在 0.5 以内 [36] - 完全替换性能急剧恶化（FID > 75），表明仅部分层适合嫁接 [37] - 嫁接在较小计算预算下构建高效混合架构，交错设计尤其有效 [41] 文本到图像应用 - 嫁接模型实时计算速度提升 1.43 倍，GenEval 分数仅小幅下降（47.78 vs 49.75） [42] - 特定属性指标保持可比，但局部纹理区域存在失真 [42] - 嫁接技术成功应用于文生图 DiTs，实现显著加速且质量损失极小 [43]

Grafting（嫁接）

自嫁接（self-grafting）

Artificial Intelligence

Diffusion Transformers (DiTs)

PixArt-Σ

Grafting（嫁接）

自嫁接（self-grafting）

Artificial Intelligence

Diffusion Transformers (DiTs)

PixArt-Σ