两阶段架构编辑法 - 财报，业绩电话会，研报，新闻 - Reportify

两阶段架构编辑法

搜索文档

李飞飞团队提出架构设计新思路！无需从头训练，直接“嫁接”预训练模型关键组件

量子位· 2025-06-20 13:53

预训练模型架构探索新方法 - 提出"嫁接"技术可直接修改预训练模型组件来研究新架构，避免从头训练的高成本[2] - 该方法类比软件开发中的代码复用逻辑，显著提升研究效率[3] - 在DiTs模型测试中，混合设计仅需2%预训练计算量即可保持原模型性能[5] 技术实现细节 - 采用两阶段架构编辑法：激活蒸馏（L1/L2损失函数）和轻量级微调（5×10-5权重衰减）[16] - 自嫁接对照实验显示仅需8k样本初始化，10%训练数据微调即可恢复模型性能[19] - 计算图修改涉及MHA/MLP算子替换，需解决新算子初始化和误差累积两大问题[14][15] 实验验证结果 - 混合架构实验：50% MHA替换为SWA时FID仅增0.4，全替换导致FID>75[20] - 文生图模型PixArt-Σ经嫁接后生成速度提升1.43倍（235ms→164ms），质量下降<2%[23][24] - 并行化改造使DiT-XL/2深度减半（28→14层）仍保持更优生成质量[25][26] 应用价值与局限 - 22种嫁接模型已开源，涵盖MLP宽度调整（r=3/6）和Hyena系列算子替换[22][29] - 当前局限在于仅验证DiT-XL/2模型及特定算子替换方案[27] - 方法显著降低架构探索门槛，尤其适合计算资源有限场景[28]

Grafting（嫁接）

两阶段架构编辑法

Artificial Intelligence

Grafting（嫁接）

两阶段架构编辑法

Artificial Intelligence