DiT（Diffusion Transformers） - 财报，业绩电话会，研报，新闻

DiT（Diffusion Transformers）

搜索文档

量子位· 2025-08-20 15:48

文章核心观点 - DiT（Diffusion Transformers）作为扩散模型领域的核心架构受到质疑，但原作者谢赛宁强调科学验证的重要性并回应质疑，同时指出DiT的技术优势及改进方向 [4][5][6][9][27][29][32] DiT的技术地位与影响 - DiT将Transformer与扩散模型融合，在计算效率和生成效果上超越基于U-Net的经典模型ADM和LDM，并将Transformer扩展到图像视频领域 [9] - 若DiT存在根本性错误，大量依赖DiT的生成模型可能需重新评估，对整个领域产生重大影响 [10] 质疑者的核心论点 - 质疑依据来源于论文《TREAD:Token Routing for Efficient Architecture-agnostic Diffusion Training》，提出Tread策略可将早期层token传递至更深层，无需修改架构或引入额外参数 [12][13][14] - DiT架构可能隐含特性导致FID迅速降低，Tread模型比DiT在40万次训练迭代快14倍，在700万次迭代时快37倍 [15][16] - 质疑者认为大幅性能提升可能否定原有方法，并批评训练中禁用部分网络的做法 [17][19] - 指出DiT后置层归一化可能导致动态范围输出问题，需使用对数尺度处理信噪比差异 [23] - 质疑DiT的条件处理仅通过普通MLP流程，未体现Transformer特性 [25][26] 谢赛宁的回应与技术说明 - 强调Tread策略与"DiT是错的"无直接关联，认为Tread类似随机深度，通过正则化提升特征稳健性 [27][28] - 推荐使用经过验证的Lightning DiT版本（含swiglu、rmsnorm、rope等技术），并指出后置层归一化目前无证据表明存在问题 [29][30] - 提出DiT的核心改进集中于内部表征学习，包括REPA方法、tokenizer修正、语义token拼接、解耦架构及正则化方法 [32] - 训练中采用随机插值/流分配提升效果，SiT作为基准评估方法，时间嵌入需使用adaln-zero并共享参数以避免浪费30%参数 [33] - 指出sd-vae是DiT当前症结，处理256×256分辨率图像需445.87 GFlops且非端到端架构，va-vae和repa-e仅能部分解决问题 [34]

DiT（Diffusion Transformers）

DiT（Diffusion Transformers）

Tread策略

新范式来了！新能量模型打破Transformer++扩展上限，训练扩展率快35%

机器之心· 2025-07-07 12:48

核心观点 - 研究提出基于能量的Transformer（EBT）模型，通过无监督学习实现系统2思维（慢速思维）能力，突破传统Transformer在复杂推理任务上的局限性 [9][10] - EBT在语言和图像任务中展现出显著优势：语言任务性能提升29%，图像去噪PSNR最高提升3.5，同时计算量减少99% [12][81][83] - 模型具备跨模态泛化能力，在分布外数据上表现尤为突出，预训练扩展速率比Transformer++最高提升35% [11][14][46] 技术原理 - EBT通过能量函数为输入-预测对分配能量值，采用梯度下降优化至最低能量状态模拟思考过程 [17][18][21] - 引入三种关键正则化技术：重放缓冲区、Langevin动力学变体、随机化梯度步长，确保能量曲面平滑性与凸性 [25][26][27][28] - 设计两种架构变体：解码器EBT（类似GPT）和双向EBT（支持掩码建模） [32][33] 性能表现语言任务 - 扩展性全面超越Transformer++：数据效率提升35%，参数/FLOPs效率更高，预期千倍规模下优势更显著 [11][44][47] - 思考机制带来29%性能提升，自我验证增益从4-8%增至10-14%，且随训练规模扩大持续增强 [55][60][61] - 下游任务泛化能力更强，GSM8K困惑度降低6.3，BB Math QA降低7.2 [73][74] 视觉任务 - 图像去噪PSNR达27.25（比DiT高0.67），OOD噪声处理PSNR提升3.73，MSE降低413.5 [82][83] - 视频学习扩展速率快33%，SSV2数据集验证损失下降更显著 [76][78] - 仅需1%前向传播次数即可达到DiT同等去噪效果，PSNR提升速率更高 [86][88] 创新价值 - 首次实现无监督系统2思维建模，突破模态/问题依赖性限制，为AGI发展提供新范式 [8][10][15] - 能量机制自动捕捉预测不确定性（如文本token难度、视频帧可预测性） [63][65][80] - 计算效率革命性提升：图像任务减少99%计算量，语言任务优化多步推理 [83][88][92]

系统2思维

能量模型

大语言模型

基于能量的Transformer（Energy-Based Transformers

基于能量的Transformer（Energy-Based Transformers

EBTs）

Transformer++