DiT - 财报，业绩电话会，研报，新闻

DiT

搜索文档

NeurIPS'25 Oral：何必DiT，字节首次拿着自回归，单GPU一分钟生成5秒720p视频

36氪· 2025-11-14 16:35

核心观点 - 字节跳动商业化技术团队提出名为InfinityStar的视频生成方法，旨在解决DiT模型计算复杂度高、资源消耗大和生成速度慢的问题，实现了质量与效率的兼顾 [2] - InfinityStar是首个在VBench基准上超越扩散模型的离散自回归视频生成器，在多项任务中表现优异，生成速度比主流扩散模型快一个数量级 [3][24] - 该方法通过时空金字塔建模等关键技术，将图像和视频生成任务统一为自回归预测问题，支持文生图、文生视频、图生视频及交互式长视频生成等多种功能 [3][9][11] 技术架构与创新 - 核心架构为时空金字塔建模方法，将视频分解为首帧（负责静态外观信息）和后续视频片段（负责动态信息），通过时空自回归Transformer统一建模 [9][10][11] - 采用高效的视觉分词器，通过知识继承技术加快训练收敛，并引入随机量化器深度正则化技术以均衡信息在不同尺度上的分布，提升生成质量 [14][15] - 对自回归Transformer进行三项关键改进：语义尺度重复以增强视频结构一致性和运动流畅性；时空稀疏注意力以降低长序列计算复杂度；时空RoPE位置编码以提供精确时空坐标感 [17][18] 性能表现 - 在文生图任务上，InfinityStar在GenEval和DPG基准上取得优异表现，尤其在位置和物体关系上展现出明显优势 [18] - 在文生视频任务上，InfinityStar-8B模型在VBench基准上超越所有先前的自回归模型，其总体得分达到83.74，甚至优于部分基于DiT的模型，如CogVideoX-5B（81.61）和HunyuanVideo-13B（83.24） [21][22] - 在人类偏好评估中，InfinityStar-8B在指令遵循方面展现出显著优势，效果优于HunyuanVideo-13B [22] - 生成效率显著提升，比同尺寸的基于DiT的方法快一个数量级，在单张GPU上生成5秒720p视频仅需不到1分钟 [24] 应用与功能 - 支持多种生成任务，包括文生图、文生视频、图生视频以及交互式长视频生成 [3][8] - 提供Discord社区体验入口，用户可通过提示词生成高质量图像，并进一步基于图像生成视频，实现联动玩法 [4][6][8] - 作为原生自回归模型，支持交互式长视频生成，可根据参考视频和新提示词持续生成后续内容 [8]

Diffusion 一定比自回归更有机会实现大一统吗？

机器之心· 2025-08-31 09:30

Diffusion架构与自回归架构在多模态大一统模型中的对比 - 多模态能力被视为实现人类级别智能的必要条件构建大一统模型成为关键目标旨在用单一架构统一处理文本图像音频视频 3D模型及机器人动作信号等异构数据类型[8] - 自回归架构长期主导多模态领域 Transformer系列LLM从NLP扩展至多模态催生LLaVa Qwen-VL InternVL Ovis和GPT4等模型[8] - 扩散架构原主要应用于视觉生成领域如Stable Diffusion和DiT 但近期扩散语言模型在NLP任务突破重新引发对其实现多模态大一统潜力的关注[8] Diffusion架构的理论优势与潜力 - 扩散范式天然支持并行生成精细化控制和动态感知这些是自回归模型难以实现的能力[9] - 离散扩散架构被强调为替代自回归实现多模态统一处理的潜在方案[9] - 扩散语言模型通过并行生成和迭代式去噪解决自回归模型推理速度瓶颈具有扩展至其他模态的潜力[9] 生成式建模的信息论基础 - 自回归模型本质是预测下一个token 通过最小化序列描述长度实现无损压缩尤其适应NLP任务[9] - 多模态自回归模型需将输入转换为一维序列早期使用双编码器架构分别处理图像文本后转向仅解码器架构并通过连接器转换图像嵌入[10] - 扩散架构本质是纠错机制正向加噪和反向去噪过程同样构成强大压缩框架且支持两种压缩模式[11]

Artificial Intelligence

Artificial Intelligence

GPT-4o

DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学

机器之心· 2025-08-20 12:26

文章核心观点 - 一篇X平台帖子质疑DiT架构存在根本性缺陷认为其训练效率低且存在隐性设计问题而TREAD训练策略的提出暴露了这些问题 [1][4][8] - DiT作者谢赛宁回应质疑承认架构存在改进空间但强调需通过科学实验验证而非纯理论推测同时指出DiT当前真正问题是sd-vae模块的低效性 [29][33][36] - TREAD方法通过令牌路由机制显著提升训练效率在DiT骨干网络上实现14/37倍训练加速并达到更低FID分数（生成质量更高） [2][6] DiT架构争议点 - 帖子指出DiT使用后层归一化(Post-LayerNorm)处理数值剧烈变化的扩散任务可能导致不稳定 [11][13] - 批评adaLN-zero机制用简单MLP替代Transformer处理条件数据限制注意力操作表达力 [12][16] - 引用早期研究认为LayerNorm的偏置参数可能虚假改善性能而非真正优化梯度 [17] TREAD技术优势 - 采用令牌路由机制训练时使用部分令牌集减少计算成本推理时恢复完整设置 [6] - 在A100 GPU训练100-10000小时范围内 FID分数显著降低（质量提升）[2][3] - 方法架构无关可与MaskDiT等技术兼容但更高效 [6] 谢赛宁的技术回应 - 强调TREAD实际更接近随机深度(Stochastic Depth)的正则化效应而非架构缺陷证明 [36] - 推荐Lightning DiT作为升级版（含swiglu/rmsnorm/rope等技术）[36] - 指出sd-vae模块是真正硬伤：处理256×256图像需445.87 GFlops 低效且非端到端 [36] DiT行业地位 - DiT为扩散模型与Transformer结合的首个工作替代U-Net成为图像/视频生成主流架构 [20][22][23] - 已成为Sora和Stable Diffusion 3的基础架构具备学术与工业应用双重价值 [25]

无需训练让扩散模型提速2倍，上交大提出Token级缓存方案｜ICLR‘25

量子位· 2025-02-28 13:19

文章核心观点 - Diffusion Transformer模型通过token粒度的缓存方法实现图像和视频生成模型上无需训练的两倍以上加速，上海交通大学等团队提出的Toca方法有效解决了Diffusion Transformers高计算成本问题，在多种模型上表现优异 [1][4] 背景 - 扩散模型在图像、视频生成等任务中性能出色，Diffusion Transformers扩展参数量和计算规模推动视觉生成领域发展，但面临高计算成本、推理速度慢的挑战 [5] - 研究者提出减少采样步数和加速去噪网络模型等加速方法，基于特征缓存的方法因无损加速、无需训练受工业界关注 [5] - 不同计算层及同层不同Token对缓存误差适应性不同，有必要将模型加速粒度细化到token级并筛选重要token [5] 核心贡献 - ToCa首次在DiT加速中引入token级缓存复用策略，并从误差积累与传播角度分析特征缓存方法 [7] - ToCa提出4种适用于不同情形的token selection策略，应用于多种最新模型实验证明其更优秀 [7] 研究动机 - 不同token特征缓存引入误差值及对模型输出影响差异大，需考虑token级特征缓存 - 复用策略 [8] 方法计算流程 - Cache初始化：推理完整时间步，将各层特征放入cache [9] - 重要性得分计算：计算各token重要性得分，标记最低部分token为cache状态 [9] - 部分计算：对传入token执行正常计算得到输出 [10] - Cache更新：调出cache中token输出，更新计算得到的新输出，循环长度2 - 4个时间步，还设计了随层深度上升而衰减的计算比例 [11] 重要性得分计算 - ToCa基于4个不同方面计算重要性分数，实际应用中加权求和给出总得分 [13] 实验结果图像生成模型 - ToCa在PixArt - alpha上相比其他加速方法和无加速原图对齐效果更佳，图 - 文对齐能力更好，FID - 30k和CLIP Score表现远超其他方法 [15][16] - ToCa在FLUX模型上生成质量佳，和原图基本无差异，在文字生成任务细节有差异，后续将研究，在FLUX上1.5倍加速，数值指标基本不变优于其他方法 [17][18] - ToCa在基础模型DiT上结果证明其优越性 [19] 视频生成模型 - 团队制作网页展示OpenSora上加速效果，将视频生成结果部分抽帧浏览 [20][21] - ToCa在VBench测试中远优于其他方法，取得2.36倍无损加速，在加速效果和生成质量上最优，大部分指标和原模型得分几乎相同 [21][22] 总结 - ToCa是首次从Token级实现扩散模型加速的方法，适配性强，在多种任务上表现佳，基于特征缓存的扩散模型加速方法值得进一步探索 [23]

扩散模型（Diffusion Models）

token级缓存复用策略

特征缓存方法

Diffusion Transformer模型