多对象融合
搜索文档
视频模型原生支持动作一致,只是你不会用,揭开「首帧」的秘密
36氪· 2025-11-28 10:47
核心观点 - 视频生成模型的第一帧并非简单的时间起点,而是作为模型的“概念记忆体”,存储了后续画面所需的所有视觉元素(角色、物体、纹理、布局等)[1][4] - 模型天然具备融合多参考物体的能力,但这种能力默认情况下不稳定、不可控,难以被稳定激活[4][18][21] - FFGo方法通过极低成本(不改模型结构、仅需20–50个样本、几小时LoRA训练)即可稳定激活模型的这种潜在能力,实现高质量视频定制[6][7][22] 技术原理 - 第一帧作为“概念蓝图”,模型会自动将其中的多个视觉实体打包存储,并在后续帧中复用[4][18] - 基础模型在极罕见情况下可通过特殊转场提示词(如“ad23r2 the camera view suddenly changes”)触发多对象融合,证明能力已存在但不可控[18][21] - FFGo的LoRA训练不是教会模型新能力,而是学习如何稳定触发模型已有的“隐藏GPU”,使其持续发挥作用[22] 方法优势 - 无需修改任何预训练视频模型(如Veo3、Sora2、Wan2.2)的结构[6][7] - 仅需20–50个精心挑选的视频样本和几小时的LoRA训练,避免大规模数据需求[7][15] - 不会导致模型过拟合或灾难性遗忘,保持原模型的泛化能力[7][18][22] - 支持多达5个参考实体同时融合,优于VACE/SkyReels-A2等现有方法(限制在3个以内)[9][17] 应用场景 - 机器人操作(Robot Manipulation)[12] - 自动驾驶模拟(Driving Simulation)[12] - 航拍/水下/无人机模拟(Aerial / Underwater)[12] - 多产品展示[12] - 影视制作[12] - 任意多角色组合视频生成[12] 实施流程 - 使用Gemini-2.5 Pro自动识别前景物体,SAM2提取RGBA mask,并自动生成视频文本描述,构建高质量训练集[15] - 训练时直接舍弃前4帧(Wan2.2的压缩帧),从第5帧开始利用真正的混合内容[16] - 推理时无需特殊处理,仅需提供包含多物体/角色的首帧和文本prompt即可生成交互视频[9] 性能表现 - 在画面一致性、物体身份保持、动作连贯性方面表现强劲[9][18] - 用户研究中以81.2%的票数大幅领先现有方法[26] - 输出画面更自然、更连贯,且能高度匹配文本提示(如wingsuit飞行者与Cybertruck贴合运动)[18][23]