LayerNorm

搜索文档
DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
机器之心· 2025-08-20 12:26
文章核心观点 - 一篇X平台帖子质疑DiT架构存在根本性缺陷 认为其训练效率低且存在隐性设计问题 而TREAD训练策略的提出暴露了这些问题 [1][4][8] - DiT作者谢赛宁回应质疑 承认架构存在改进空间但强调需通过科学实验验证 而非纯理论推测 同时指出DiT当前真正问题是sd-vae模块的低效性 [29][33][36] - TREAD方法通过令牌路由机制显著提升训练效率 在DiT骨干网络上实现14/37倍训练加速 并达到更低FID分数(生成质量更高) [2][6] DiT架构争议点 - 帖子指出DiT使用后层归一化(Post-LayerNorm)处理数值剧烈变化的扩散任务 可能导致不稳定 [11][13] - 批评adaLN-zero机制用简单MLP替代Transformer处理条件数据 限制注意力操作表达力 [12][16] - 引用早期研究认为LayerNorm的偏置参数可能虚假改善性能而非真正优化梯度 [17] TREAD技术优势 - 采用令牌路由机制 训练时使用部分令牌集减少计算成本 推理时恢复完整设置 [6] - 在A100 GPU训练100-10000小时范围内 FID分数显著降低(质量提升)[2][3] - 方法架构无关 可与MaskDiT等技术兼容但更高效 [6] 谢赛宁的技术回应 - 强调TREAD实际更接近随机深度(Stochastic Depth)的正则化效应 而非架构缺陷证明 [36] - 推荐Lightning DiT作为升级版(含swiglu/rmsnorm/rope等技术)[36] - 指出sd-vae模块是真正硬伤:处理256×256图像需445.87 GFlops 低效且非端到端 [36] DiT行业地位 - DiT为扩散模型与Transformer结合的首个工作 替代U-Net成为图像/视频生成主流架构 [20][22][23] - 已成为Sora和Stable Diffusion 3的基础架构 具备学术与工业应用双重价值 [25]