DiT（Diffusion Transformer） - 财报，业绩电话会，研报，新闻

DiT（Diffusion Transformer）

搜索文档

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral

量子位· 2025-11-14 13:38

技术突破与核心优势 - 提出InfinityStar方法，通过时空金字塔建模统一处理图像和视频生成任务，核心是将视频分解为首帧（外观信息）和后续片段（动态信息）进行解耦建模[13][14][15][16] - 采用纯自回归生成方式，相比DiT（Diffusion Transformer）所需的20-100步去噪迭代，实现"一条过"生成，计算效率提升一个数量级[4][25][31] - 在单张GPU上生成5秒720p视频仅需不到1分钟，比同尺寸DiT方法（如HunyuanVideo、Wan-Video）快一个数量级[31] 模型架构创新 - 引入时空金字塔建模架构，将图像金字塔的下一尺度预测思想扩展到时空维度，使用单一Transformer统一建模所有尺度间和片段间依赖关系[13][16] - 采用基于多尺度残差量化的视觉分词器，并应用知识继承技术加速训练，通过继承预训练连续分词器权重使离散分词器更快收敛[18][19] - 提出随机量化器深度正则化技术，随机丢弃精细尺度Token，迫使模型在粗糙尺度下也能重建有效信息，改善信息分布均衡性[21] 性能优化技术 - 设计语义尺度重复技术，在预测时对控制全局信息的语义尺度重复预测N次，增强视频结构一致性和运动流畅性[24] - 应用时空稀疏注意力机制，只关注必要上下文信息（如前一片段最后一个尺度），大幅降低长序列注意力计算复杂度[24] - 引入时空RoPE位置编码，同时编码尺度、时间、高度和宽度信息，为Transformer提供精确时空坐标感知[24] 多任务能力 - 支持文生图、文生视频、图生视频、交互式长视频生成等多种任务，所有任务均统一为"预测下一个尺度/片段"的自回归问题[9][12][16] - 具备交互式长视频生成能力，可根据5秒参考视频和新提示词持续生成后续内容[12] 性能表现 - 在VBench基准测试中，InfinityStar-8B在文生视频任务上取得83.74综合得分，超越CogVideoX-5B（81.61）和HunyuanVideo-13B（83.24）等扩散模型[27][28] - 人类偏好评估显示InfinityStar-8B在指令遵循方面优于HunyuanVideo-13B[29] - 文生图任务在GenEval和DPG基准上表现优异，在位置和物体关系方面具有明显优势[25]

DiT（Diffusion Transformer）

DiT（Diffusion Transformer）

VAE时代终结？谢赛宁团队「RAE」登场，表征自编码器或成DiT训练新基石

机器之心· 2025-10-14 16:24

技术突破核心观点 - 纽约大学谢赛宁团队提出表征自编码器（RAE），旨在替代存在10多年的变分自编码器（VAE），作为扩散模型（如DiT）的潜空间基础[1][2] - RAE结合预训练表征编码器（如DINO、SigLIP、MAE）与训练好的解码器，实现高质量重建和语义丰富的潜空间，同时具备可扩展的Transformer架构特性[2] - 该方案展现出明显优势，应成为DiT训练的全新默认方案[6] VAE的局限性 - SD-VAE计算量约为450 GFLOPs，而简单的ViT-B编码器仅需约22 GFLOPs，过时的骨干网络使架构比实际需要的更复杂[4] - VAE的潜空间过度压缩（仅4个通道），限制了可存储的信息量，其压缩作用有限，几乎和原始三通道像素一样受限[4] - VAE仅使用重建任务训练，学到的特征很弱（线性探针精度约8%），导致模型收敛更慢、生成质量下降[4] RAE的重建性能与优势 - 使用冻结预训练表征编码器的RAE在重建质量（rFID）上一致优于SD-VAE，例如使用MAE-B/16的RAE达到0.16的rFID，明显胜过SD-VAE的0.62[18] - 即使小型表征编码器模型也保留足够底层细节供解码，重建质量在DINOv2-S、B、L三种尺寸下保持稳定[19] - 增加解码器容量能持续提升rFID，从ViT-B的0.58提升到ViT-XL的0.49，且ViT-B性能已超过SD-VAE，其GFLOPs效率高出14倍[19] - RAE直接继承底层表征编码器的表征能力，线性探测精度远高于SD-VAE的8%，例如DINOv2-B达84.5%，SigLIP2-B达79.1%[18][20] DiT^DH架构创新 - 针对高维RAE潜空间，研究者提出新的DiT变体DiT^DH，引入浅层但宽度较大的头部结构，使扩散模型在不显著增加二次计算成本的前提下扩展网络宽度[3][32] - DiT^DH的收敛速度比标准DiT快，在计算效率（FLOPs）方面显著优于DiT[34] - DiT^DH在不同规模RAE上保持性能优势，例如在使用DINOv2-L时，将FID从6.09降低至2.73[36] 图像生成性能表现 - DiT^DH-XL在ImageNet数据集上取得优异图像生成效果：在256×256分辨率下，无引导条件FID为1.51；在256×256和512×512分辨率下，有引导条件FID均为1.13[5][41] - 该性能大大优于所有先前扩散模型，在256×256下创下新的最先进FID分数[41] - 当训练计算量达约5×10¹⁰ GFLOPs时，DiT^DH-XL表现已超越REPA-XL、MDTv2-XL和SiT-XL等模型；在5×10¹¹ GFLOPs时实现全场最佳FID，所需计算量仅为基线模型的1/40[43] 技术实现关键点 - 研究证明只要解码器训练得当，冻结表征编码器可作为扩散潜在空间的强大编码器，挑战了其不适合重建任务的假设[11][12] - 为使DiT在RAE潜空间中成功生成，模型宽度必须匹配或超过RAE的Token维度，否则训练失败或性能远逊[24][26] - 采用维度相关的噪声调度偏移，通过缩放因子调整噪声时间步长，在高维潜空间训练时带来显著性能提升[28] - 提出噪声增强解码方案，向干净潜变量注入高斯噪声，增强解码器对扩散模型输出空间的泛化能力，改善生成指标（gFID）[29]

生成模型

扩散模型

RAE（表征自编码器）

DiT（Diffusion Transformer）

DiT（Diffusion Transformer）

DiT^DH

VAE（变分自编码器）