让AI生成视频「又长又快」:Rolling Forcing实现分钟级实时生成
机器之心·2025-11-05 08:18
本工作由南洋理工大学与腾讯 ARC 实验室联合完成。本文的第一作者为南洋理工大学博士生刘坤昊。本文 的通讯作者为 ARC 资深研究员胡文博和南洋理工大学教授 Shijian Lu。 然而,这正是当前 AI 视频生成的最大瓶颈。现有模型在几秒钟的短片中表现不错,但当生成持续延伸时, 问题会像滚雪球一样放大。这种现象被称为 误差累积 , 就像「传话游戏」中信息一层层失真,每一帧的微 小误差都会被下一帧继承、放大,最终导致画面崩坏 —— 颜色漂移、动作僵硬、主体变形…… 视频越长, 问题越严重。 来自南洋理工大学与腾讯 ARC 实验室的研究者提出了一种新的实时视频生成方法: Rolling Forcing 。它通 过三大创新设计 —— 滚动窗口联合降噪、Attension Sink 机制、以及高效训练算法 —— 实现了「边生成边 修正」, 从而在单张 GPU 上实现分钟级视频的实时生成。 实时长视频生成的「不可能三角」 实时长视频生成有一个「不可能三角」的困境: 高质量、一致性和实时性 三者难以兼顾。其核心难点可分 解为以下三个挑战: 研究背景: AI 能实时拍长片了吗? 想象一下,你正在玩一款开放世界游戏,角色在 ...