NeurIPS'25 Oral：何必DiT，字节首次拿着自回归，单GPU一分钟生成5秒720p视频

核心观点 - 字节跳动商业化技术团队提出名为InfinityStar的视频生成方法，旨在解决DiT模型计算复杂度高、资源消耗大和生成速度慢的问题，实现了质量与效率的兼顾 [2] - InfinityStar是首个在VBench基准上超越扩散模型的离散自回归视频生成器，在多项任务中表现优异，生成速度比主流扩散模型快一个数量级 [3][24] - 该方法通过时空金字塔建模等关键技术，将图像和视频生成任务统一为自回归预测问题，支持文生图、文生视频、图生视频及交互式长视频生成等多种功能 [3][9][11] 技术架构与创新 - 核心架构为时空金字塔建模方法，将视频分解为首帧（负责静态外观信息）和后续视频片段（负责动态信息），通过时空自回归Transformer统一建模 [9][10][11] - 采用高效的视觉分词器，通过知识继承技术加快训练收敛，并引入随机量化器深度正则化技术以均衡信息在不同尺度上的分布，提升生成质量 [14][15] - 对自回归Transformer进行三项关键改进：语义尺度重复以增强视频结构一致性和运动流畅性；时空稀疏注意力以降低长序列计算复杂度；时空RoPE位置编码以提供精确时空坐标感 [17][18] 性能表现 - 在文生图任务上，InfinityStar在GenEval和DPG基准上取得优异表现，尤其在位置和物体关系上展现出明显优势 [18] - 在文生视频任务上，InfinityStar-8B模型在VBench基准上超越所有先前的自回归模型，其总体得分达到83.74，甚至优于部分基于DiT的模型，如CogVideoX-5B（81.61）和HunyuanVideo-13B（83.24） [21][22] - 在人类偏好评估中，InfinityStar-8B在指令遵循方面展现出显著优势，效果优于HunyuanVideo-13B [22] - 生成效率显著提升，比同尺寸的基于DiT的方法快一个数量级，在单张GPU上生成5秒720p视频仅需不到1分钟 [24] 应用与功能 - 支持多种生成任务，包括文生图、文生视频、图生视频以及交互式长视频生成 [3][8] - 提供Discord社区体验入口，用户可通过提示词生成高质量图像，并进一步基于图像生成视频，实现联动玩法 [4][6][8] - 作为原生自回归模型，支持交互式长视频生成，可根据参考视频和新提示词持续生成后续内容 [8]