Rolling Forcing
搜索文档
让AI生成视频「又长又快」:Rolling Forcing实现分钟级实时生成
机器之心· 2025-11-05 08:18
研究背景与核心问题 - AI实时生成长时间、高质量且连贯的视频流是当前技术瓶颈,现有模型存在误差累积问题,导致视频延长时出现画面崩坏 [4] - 实时长视频生成面临“不可能三角”困境,即高质量、一致性和实时性三者难以兼顾 [8] - 核心挑战包括实时性要求模型顺序生成、消除误差累积与保持一致性难以两全、以及自回归逐帧生成的局限性 [10] 方法核心:Rolling Forcing 技术创新 - 提出“滚动窗口”思想,将视频生成从串行因果过程转变为滑动窗口内的并行协作过程,实现“边生成边修正” [12] - 通过滚动窗口联合降噪,在单次前向传播中同时处理多帧窗口,利用双向注意力机制进行帧间相互校准 [14] - 引入Attention Sink机制,将初始生成帧作为全局锚点持久化缓存,以维持视频长期视觉属性的一致性 [14] - 采用基于非重叠窗口的高效蒸馏训练算法,使训练过程更贴近推理真实场景,缓解曝光偏差 [14] 实验结果与性能表现 - 在参数量为1.3B的情况下,模型生成速度达到15.79 FPS,延迟为0.76秒,实现了实时生成 [17] - 关键质量漂移指标ΔDriftQuality低至0.01,远低于对比模型(如SkyReels-V2的5.59和MAGI-1的2.15),显著抑制了误差累积 [17] - 在多项评估指标上超越现有主流方法,如主体一致性得分92.80,背景一致性得分93.71,美学质量得分70.75 [17] - 定性结果显示,在长达2分钟的生成过程中能保持高度稳定的细节、色彩和运动连贯性 [20] 应用潜力与未来挑战 - 技术为交互式世界模型、神经游戏引擎和AR/VR等实时视频流应用提供了基础 [23] - 支持交互式视频流生成,用户可随时改变文本提示词,模型能动态调整后续内容 [21] - 未来挑战包括优化长程记忆机制以保存视频中段信息、提升训练效率以降低计算成本、以及针对VR/AR等场景优化交互延迟 [25]