视频生成一长就漂移竟是前序帧「太干净」惹的祸！研究揭示共享噪声水平才是长视频稳定关键

自回归视频生成的技术瓶颈与现有方案局限性 - 随着视频生成向长时序演进，自回归扩散模型因支持流式输出而受关注，但其在迈向“无限长”时面临核心痛点：训推不一致导致的误差累积，使生成的视频越往后时序漂移和画面崩坏问题越严重[3] - 为缓解退化问题，现有方法尝试了模拟预测误差、引入First frame sink或Self-rollout等路径，但这些修补方案各有局限性，例如使用frame sink会严重限制视频的场景变化[3] HiAR方法的核心创新与原理 - 研究团队发现，导致时序漂移的根源在于主流做法是等待前一个视频块完全去噪成“干净”画面后再作为条件输入，这种“过于干净”的上下文会使模型将前序块不可避免的微小预测误差当作绝对正确的真实条件，导致误差在自回归过程中被不断传递并成倍放大[4] - HiAR不再串行等待前一个视频块完全生成，而是在每一个去噪步中，对所有视频块进行因果生成，使上下文和当前生成块始终共享相同的噪声水平，这种简单重构大幅减少了块与块之间的误差传递[9] - 该方法基于对双向扩散模型的重新审视，发现所有视频帧共享噪声水平、同时去噪也能保持连续性和一致性，扩散模型往往有从粗到细的生成模式，粗粒度阶段的去噪只需要粗粒度的上下文就足够了，这一规律可迁移到因果自回归扩散模型中[7] - 在训练阶段，为解决模型倾向于生成几乎静止的“低运动幅度”视频的问题，团队引入了前向KL正则化，他们发现当前蒸馏得到的因果模型实际上仍保留了相当不错的双向注意力能力，因此在双向注意力模式下计算前向KL正则损失，有效约束模型保持原视频的动态多样性与合理运动幅度[10] HiAR的性能表现与评估结果 - 在权威的VBench长视频基准测试上，HiAR的Drift Score降至最低的0.257，相比基线方法显著减少了时序漂移，在长时序下保持了极高的画质与语义稳定[13] - 在核心视觉指标上，HiAR取得了最优成绩，其Total分数为0.821，Quality分数为0.846，Semantic分数为0.723，Dynamic分数为0.686[14] - HiAR实现了分钟级的无退化视频生成，在测试中成功实现只训练5秒长度视频的情况下生成了3小时的高质量连续视频[14][15] HiAR的工程优势与效率提升 - 得益于分层去噪架构打破了传统自回归模型“逐块串行”的枷锁，HiAR在4步去噪的设置下解锁了流水线并行推理能力[16] - 在不牺牲任何视频质量的前提下，HiAR实现了约1.8倍的推理加速，吞吐量达到30 fps，单chunk延迟低至0.30秒[16] - 其吞吐量达到30 fps，显著高于对比模型如Wan2.1-1.3B的0.78 fps和MAGI-1-4.5B的0.19 fps，延迟也远低于Wan2.1-1.3B的103秒和MAGI-1-4.5B的282秒[14] 研究意义与未来潜力 - HiAR为自回归长视频生成解决训推不一致问题提供了一种新思路，证明了简单的共享噪声水平就能够有效打破误差累积的魔咒[18] - 团队的方法独立于frame sink以及基于context压缩的方法，具有很大的发展空间[18]