Workflow
少步生成模型
icon
搜索文档
兼得快与好!训练新范式TiM,原生支持FSDP+Flash Attention
量子位· 2025-09-14 13:05
文章核心观点 - 生成式AI领域长期面临生成速度与生成质量难以兼得的技术矛盾 现有扩散模型和Few-step模型分别受限于局部动力学监督和全局端点映射 存在固有缺陷[1][2] - Transition Model (TiM) 提出全新训练范式 通过建模任意两时间点间的完整状态转移 实现任意步长采样和多段细化轨迹 从根本上解决速度-质量矛盾[3][4][5] - TiM在数学本质上统一了扩散模型和Meanflow模型 作为更通用的框架可退化为两者的特例 在保持少步生成速度的同时达到更高保真度[16][17] - 实验验证TiM-865M参数模型在多项指标上超越FLUX.1系列12B参数模型 尤其在多分辨率、多横纵比生成场景展现显著优势[20][34] 技术方法创新 - 放弃传统瞬时速度场或端点映射学习 直接建模任意时刻t与r间的状态转移 通过"通用状态转移恒等式"描述任意时间间隔内的具体转移[4][11][12] - 设计多段细化轨迹生成路径 将生成过程转化为任意状态与前状态间的转移动态 实现采样步长的灵活调整[13][14] - 提出差分推导方程(DDE)替代雅可比-向量乘积(JVP) 计算效率提升约2倍(24.14G FLOPs vs 48.29G FLOPs) 且原生兼容FSDP和FlashAttention等分布式训练框架[22][24][25] - 引入正切空间变换的时间重参化加权策略 优先短间隔转移训练 有效控制梯度方差并提升稳定性(加权函数w(t,r)=(σ_data+tan(t)-tan(r))^{-1/2})[29][31] 性能表现 - 在Geneval数据集测试中 TiM-865M在NFE=1时FID达49.91 明显优于基线SiT-B/4的309.5 在NFE=50时FID进一步降至17.99[22][32] - 少步生成能力突出:NFE=8时FID为26.09 超越FLUX.1-Schnell(12B参数) 多步生成上限超过FLUX.1-Dev(12B参数)[20][32] - 架构优化贡献显著:解耦时间嵌入(De-TE)和间隔感知注意力(IA-Attn)使NFE=1的FID从56.22降至48.30 结合时间加权后进一步优化至47.46[32] 行业影响 - 提供可扩展的十亿参数级基础模型训练方案 突破传统JVP方法的内存瓶颈(内存占用从14.89GiB优化至15.23GiB)[22][24] - 原生支持多分辨率与多横纵比生成 适应实际应用场景的多样化输出需求[20][34] - 为生成式AI建立统一框架 将局部解拓展到全局生成路径的解流形 推动生成模型向更通用、稳定方向发展[16][33][35]