Workflow
Self-Forcing++:让自回归视频生成模型突破 4 分钟时长极限
机器之心·2025-10-18 16:30

文章核心观点 - Self-Forcing++技术突破视频生成长度限制,首次实现4分钟15秒高质量长视频生成,无需长视频数据再训练[2][10] - 该技术通过“教师模型即世界模型”的核心思想,利用教师模型纠错能力,使学生模型在长时间尺度下学会自我修复和稳态生成[8][9][10] - 在50秒、75秒和100秒视频生成评测中全面超越基线模型,尤其在动态程度和视觉稳定性指标上表现突出[23][25] 技术原理与创新 - 采用反向噪声初始化技术,在长视频生成后将噪声重新注入已生成序列,保持时间连续性,避免时间割裂[13][14][15] - 提出扩展分布匹配蒸馏方法,将教师-学生分布对齐从5秒窗口扩展为滑动窗口蒸馏,实现长期一致性学习[16][18] - 在训练阶段同步采用滚动KV缓存,实现真正的训练-推理对齐,彻底消除曝光漂移和帧重复问题[19][20] - 引入强化学习的光流平滑奖励机制,惩罚光流突变,使视频运动过渡更自然,光流方差显著下降[22] 性能表现与实验结果 - 模型参数量为1.3B,在100秒视频生成中文本对齐得分26.04,时序质量90.87,动态程度54.12,视觉稳定性84.22[25][26] - 在50秒视频生成评测中,动态程度指标达到55.36,远超基线模型的31.96-39.15,视觉稳定性达到90.94,显著优于基线模型的40.12-60.41[25] - 随着训练算力增加,视频质量显著提升,训练预算达到25倍时可实现几乎无损的长视频生成[31] - 在0-100秒生成过程中能保持很好稳定性,基线模型大多会出现严重质量下降如过曝光和错误累积[25][30] 行业现状与挑战 - 当前主流视频生成模型如Sora、Wan、Hunyuan-Video等普遍受限于数秒短片段生成,存在训练-推理不匹配和误差累积等架构缺陷[6][7][17] - 极长场景下仍存在长时记忆缺失问题,可能丢失被遮挡物体状态,且自回归训练成本较高,效率有待提升[33]