两阶段架构编辑法

搜索文档
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
量子位· 2025-06-20 13:53
预训练模型架构探索新方法 - 提出"嫁接"技术可直接修改预训练模型组件来研究新架构,避免从头训练的高成本[2] - 该方法类比软件开发中的代码复用逻辑,显著提升研究效率[3] - 在DiTs模型测试中,混合设计仅需2%预训练计算量即可保持原模型性能[5] 技术实现细节 - 采用两阶段架构编辑法:激活蒸馏(L1/L2损失函数)和轻量级微调(5×10-5权重衰减)[16] - 自嫁接对照实验显示仅需8k样本初始化,10%训练数据微调即可恢复模型性能[19] - 计算图修改涉及MHA/MLP算子替换,需解决新算子初始化和误差累积两大问题[14][15] 实验验证结果 - 混合架构实验:50% MHA替换为SWA时FID仅增0.4,全替换导致FID>75[20] - 文生图模型PixArt-Σ经嫁接后生成速度提升1.43倍(235ms→164ms),质量下降<2%[23][24] - 并行化改造使DiT-XL/2深度减半(28→14层)仍保持更优生成质量[25][26] 应用价值与局限 - 22种嫁接模型已开源,涵盖MLP宽度调整(r=3/6)和Hyena系列算子替换[22][29] - 当前局限在于仅验证DiT-XL/2模型及特定算子替换方案[27] - 方法显著降低架构探索门槛,尤其适合计算资源有限场景[28]