NeurIPS'25 Oral:何必DiT,字节首次拿着自回归,单GPU一分钟生成5秒720p视频
36氪·2025-11-14 16:35

核心观点 - 字节跳动商业化技术团队提出名为InfinityStar的视频生成方法,旨在解决DiT模型计算复杂度高、资源消耗大和生成速度慢的问题,实现了质量与效率的兼顾 [2] - InfinityStar是首个在VBench基准上超越扩散模型的离散自回归视频生成器,在多项任务中表现优异,生成速度比主流扩散模型快一个数量级 [3][24] - 该方法通过时空金字塔建模等关键技术,将图像和视频生成任务统一为自回归预测问题,支持文生图、文生视频、图生视频及交互式长视频生成等多种功能 [3][9][11] 技术架构与创新 - 核心架构为时空金字塔建模方法,将视频分解为首帧(负责静态外观信息)和后续视频片段(负责动态信息),通过时空自回归Transformer统一建模 [9][10][11] - 采用高效的视觉分词器,通过知识继承技术加快训练收敛,并引入随机量化器深度正则化技术以均衡信息在不同尺度上的分布,提升生成质量 [14][15] - 对自回归Transformer进行三项关键改进:语义尺度重复以增强视频结构一致性和运动流畅性;时空稀疏注意力以降低长序列计算复杂度;时空RoPE位置编码以提供精确时空坐标感 [17][18] 性能表现 - 在文生图任务上,InfinityStar在GenEval和DPG基准上取得优异表现,尤其在位置和物体关系上展现出明显优势 [18] - 在文生视频任务上,InfinityStar-8B模型在VBench基准上超越所有先前的自回归模型,其总体得分达到83.74,甚至优于部分基于DiT的模型,如CogVideoX-5B(81.61)和HunyuanVideo-13B(83.24) [21][22] - 在人类偏好评估中,InfinityStar-8B在指令遵循方面展现出显著优势,效果优于HunyuanVideo-13B [22] - 生成效率显著提升,比同尺寸的基于DiT的方法快一个数量级,在单张GPU上生成5秒720p视频仅需不到1分钟 [24] 应用与功能 - 支持多种生成任务,包括文生图、文生视频、图生视频以及交互式长视频生成 [3][8] - 提供Discord社区体验入口,用户可通过提示词生成高质量图像,并进一步基于图像生成视频,实现联动玩法 [4][6][8] - 作为原生自回归模型,支持交互式长视频生成,可根据参考视频和新提示词持续生成后续内容 [8]