Workflow
InfinityStar
icon
搜索文档
NeurIPS'25 Oral:何必DiT,字节首次拿着自回归,单GPU一分钟生成5秒720p视频
36氪· 2025-11-14 16:35
核心观点 - 字节跳动商业化技术团队提出名为InfinityStar的视频生成方法,旨在解决DiT模型计算复杂度高、资源消耗大和生成速度慢的问题,实现了质量与效率的兼顾 [2] - InfinityStar是首个在VBench基准上超越扩散模型的离散自回归视频生成器,在多项任务中表现优异,生成速度比主流扩散模型快一个数量级 [3][24] - 该方法通过时空金字塔建模等关键技术,将图像和视频生成任务统一为自回归预测问题,支持文生图、文生视频、图生视频及交互式长视频生成等多种功能 [3][9][11] 技术架构与创新 - 核心架构为时空金字塔建模方法,将视频分解为首帧(负责静态外观信息)和后续视频片段(负责动态信息),通过时空自回归Transformer统一建模 [9][10][11] - 采用高效的视觉分词器,通过知识继承技术加快训练收敛,并引入随机量化器深度正则化技术以均衡信息在不同尺度上的分布,提升生成质量 [14][15] - 对自回归Transformer进行三项关键改进:语义尺度重复以增强视频结构一致性和运动流畅性;时空稀疏注意力以降低长序列计算复杂度;时空RoPE位置编码以提供精确时空坐标感 [17][18] 性能表现 - 在文生图任务上,InfinityStar在GenEval和DPG基准上取得优异表现,尤其在位置和物体关系上展现出明显优势 [18] - 在文生视频任务上,InfinityStar-8B模型在VBench基准上超越所有先前的自回归模型,其总体得分达到83.74,甚至优于部分基于DiT的模型,如CogVideoX-5B(81.61)和HunyuanVideo-13B(83.24) [21][22] - 在人类偏好评估中,InfinityStar-8B在指令遵循方面展现出显著优势,效果优于HunyuanVideo-13B [22] - 生成效率显著提升,比同尺寸的基于DiT的方法快一个数量级,在单张GPU上生成5秒720p视频仅需不到1分钟 [24] 应用与功能 - 支持多种生成任务,包括文生图、文生视频、图生视频以及交互式长视频生成 [3][8] - 提供Discord社区体验入口,用户可通过提示词生成高质量图像,并进一步基于图像生成视频,实现联动玩法 [4][6][8] - 作为原生自回归模型,支持交互式长视频生成,可根据参考视频和新提示词持续生成后续内容 [8]
何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS'25 Oral
量子位· 2025-11-14 13:38
技术突破与核心优势 - 提出InfinityStar方法,通过时空金字塔建模统一处理图像和视频生成任务,核心是将视频分解为首帧(外观信息)和后续片段(动态信息)进行解耦建模[13][14][15][16] - 采用纯自回归生成方式,相比DiT(Diffusion Transformer)所需的20-100步去噪迭代,实现"一条过"生成,计算效率提升一个数量级[4][25][31] - 在单张GPU上生成5秒720p视频仅需不到1分钟,比同尺寸DiT方法(如HunyuanVideo、Wan-Video)快一个数量级[31] 模型架构创新 - 引入时空金字塔建模架构,将图像金字塔的下一尺度预测思想扩展到时空维度,使用单一Transformer统一建模所有尺度间和片段间依赖关系[13][16] - 采用基于多尺度残差量化的视觉分词器,并应用知识继承技术加速训练,通过继承预训练连续分词器权重使离散分词器更快收敛[18][19] - 提出随机量化器深度正则化技术,随机丢弃精细尺度Token,迫使模型在粗糙尺度下也能重建有效信息,改善信息分布均衡性[21] 性能优化技术 - 设计语义尺度重复技术,在预测时对控制全局信息的语义尺度重复预测N次,增强视频结构一致性和运动流畅性[24] - 应用时空稀疏注意力机制,只关注必要上下文信息(如前一片段最后一个尺度),大幅降低长序列注意力计算复杂度[24] - 引入时空RoPE位置编码,同时编码尺度、时间、高度和宽度信息,为Transformer提供精确时空坐标感知[24] 多任务能力 - 支持文生图、文生视频、图生视频、交互式长视频生成等多种任务,所有任务均统一为"预测下一个尺度/片段"的自回归问题[9][12][16] - 具备交互式长视频生成能力,可根据5秒参考视频和新提示词持续生成后续内容[12] 性能表现 - 在VBench基准测试中,InfinityStar-8B在文生视频任务上取得83.74综合得分,超越CogVideoX-5B(81.61)和HunyuanVideo-13B(83.24)等扩散模型[27][28] - 人类偏好评估显示InfinityStar-8B在指令遵循方面优于HunyuanVideo-13B[29] - 文生图任务在GenEval和DPG基准上表现优异,在位置和物体关系方面具有明显优势[25]