Self-Forcing++：让自回归视频生成模型突破 4 分钟时长极限

文章核心观点 - Self-Forcing++技术突破视频生成长度限制，首次实现4分钟15秒高质量长视频生成，无需长视频数据再训练[2][10] - 该技术通过“教师模型即世界模型”的核心思想，利用教师模型纠错能力，使学生模型在长时间尺度下学会自我修复和稳态生成[8][9][10] - 在50秒、75秒和100秒视频生成评测中全面超越基线模型，尤其在动态程度和视觉稳定性指标上表现突出[23][25] 技术原理与创新 - 采用反向噪声初始化技术，在长视频生成后将噪声重新注入已生成序列，保持时间连续性，避免时间割裂[13][14][15] - 提出扩展分布匹配蒸馏方法，将教师-学生分布对齐从5秒窗口扩展为滑动窗口蒸馏，实现长期一致性学习[16][18] - 在训练阶段同步采用滚动KV缓存，实现真正的训练-推理对齐，彻底消除曝光漂移和帧重复问题[19][20] - 引入强化学习的光流平滑奖励机制，惩罚光流突变，使视频运动过渡更自然，光流方差显著下降[22] 性能表现与实验结果 - 模型参数量为1.3B，在100秒视频生成中文本对齐得分26.04，时序质量90.87，动态程度54.12，视觉稳定性84.22[25][26] - 在50秒视频生成评测中，动态程度指标达到55.36，远超基线模型的31.96-39.15，视觉稳定性达到90.94，显著优于基线模型的40.12-60.41[25] - 随着训练算力增加，视频质量显著提升，训练预算达到25倍时可实现几乎无损的长视频生成[31] - 在0-100秒生成过程中能保持很好稳定性，基线模型大多会出现严重质量下降如过曝光和错误累积[25][30] 行业现状与挑战 - 当前主流视频生成模型如Sora、Wan、Hunyuan-Video等普遍受限于数秒短片段生成，存在训练-推理不匹配和误差累积等架构缺陷[6][7][17] - 极长场景下仍存在长时记忆缺失问题，可能丢失被遮挡物体状态，且自回归训练成本较高，效率有待提升[33]