首帧的真正秘密被揭开了:视频生成模型竟然把它当成「记忆体」
机器之心·2025-12-05 12:08

文章核心观点 - 视频生成模型的首帧并非时间起点,而是作为内部“概念记忆体”,存储后续帧需引用的所有视觉实体[2][3][9] - 模型天生具备多对象融合与内容定制能力,但默认状态下该能力极不稳定且难以触发[14][38][43] - FFGo方法通过极轻量级微调(仅需20–50个样本)即可稳定激活模型的潜在能力,无需修改模型结构或使用百万级数据[18][21][44] 研究方法与发现 - 团队通过对Veo3、Sora2、Wan2.2等主流视频模型的测试,验证了首帧作为内容缓存区的现象[11] - 研究发现,基础模型在极罕见情况下能成功完成多对象融合任务,证明能力已存在但无法稳定调用[35][37][38] - FFGo的作用被证实并非赋予模型新能力,而是通过学习“触发机制”使其固有能力变得可控和可靠[40][44][47] FFGo技术方案优势 - 方法仅需20–50个精心筛选的视频样本和数小时LoRA训练,即可实现最先进(SOTA)的视频内容定制[17][21][52] - 相比VACE、SkyReels-A2等现有方法,FFGo无需修改模型结构,且能处理多达5个参考实体,而现有方法限制在3个以内并易出现物体丢失[19][22][31] - 技术能有效保持物体身份一致性、避免灾难性遗忘,并在用户研究中以81.2%的票数大幅领先[31][52] 应用场景与技术实现 - 技术亮点覆盖自动驾驶模拟、航拍/水下无人机模拟、多产品展示、影视制作及多角色视频生成六大场景[24] - 采用VLM(如Gemini-2.5 Pro)自动构建高质量训练集,利用SAM2提取物体掩膜,大幅降低人工工作量[27] - 推理时仅需舍弃模型生成的前4帧压缩帧,真正的混合内容从第5帧开始[28]