视频生成不再「断片」：OneStory给模型装上「选择性记忆」，跨镜头讲故事人物场景始终如一丨CVPR'26

文章核心观点 - 多镜头视频生成面临维持跨镜头内容一致性与遵循叙事变化的双重挑战，现有方法在长程上下文维护上存在局限[3] - Meta与University of Copenhagen的研究者提出OneStory模型，通过自适应记忆建模机制，有效保留全局跨镜头上下文，实现连贯的多镜头视频叙事[4] - OneStory采用next-shot generation的自回归生成方式，并设计Frame Selection与Adaptive Conditioner两个关键模块，在计算成本可控的前提下，生成长达分钟级、包含十个镜头的连贯视频故事[9][10][16] 多镜头视频生成的挑战与定义 - 多镜头视频生成要求模型同时处理需在不同镜头间保持稳定的信息（如人物身份、环境主体）和需随叙事自然变化的信息（如视角切换、场景转场）[3] - 任务定义为：给定每个镜头的提示词及可选的初始图像，模型需生成多个镜头，并维持跨镜头内容一致性及对每个镜头提示词的准确遵循[3] - 现有方法主要局限在于：依赖固定滑动窗口导致较早信息被丢弃，或仅依赖单张关键帧难以传递复杂的叙事细节[3] OneStory模型的核心创新 - 将问题重构为next-shot generation，实现基于已生成镜头自回归地生成下一个镜头的shot-by-shot生成方式[10] - 以预训练的image-to-video基础模型初始化，自然继承其强大的视觉条件生成能力，首个镜头可由任何text-to-video或image-to-video模型生成，后续镜头由OneStory逐步生成[14] - 在同一个模型中统一支持text-to-multi-shot video和image-to-multi-shot video两种生成方式[15] 关键技术模块：自适应记忆建模 - Frame Selection模块：从所有历史镜头中自动挑选与当前镜头提示词语义最相关的帧作为记忆，解决了固定窗口的遗忘问题，构建了全局跨镜头上下文[19][20] - Adaptive Conditioner模块：根据Frame Selection预测的重要性，对选中的历史帧进行自适应patchification，重要信息保留细粒度表示，次要信息被更强压缩，从而将历史上下文转化为紧凑有效的条件信号注入生成过程[21][24] 模型能力与数据构建 - 可生成长达分钟级、包含十个镜头的长视频故事，在复杂叙事推进中保持人物与场景的一致性[9] - 在out-of-domain场景中展现出良好的泛化能力[9] - 数据构建仅保留分镜头提示词，并将每个镜头写成带有前文指代关系的描述，更贴近真实故事讲述逻辑，使镜头间形成更自然的叙事流[25] 实验结果与意义 - 实验表明，模型能在复杂提示不断变化的情况下持续推进叙事，同时保持人物和环境的一致性[28] - 模型表现包括外观变化下的人物一致性保持、从大全景到局部特写时的空间定位能力、以及人与物体交互发展过程中的叙事延续能力[29] - 模型学到的更接近于一种跨镜头叙事理解能力，而非表层的视觉连续性[28] - 该工作为视频模型提供了一种有效的自适应memory管理机制，为更长时程、更高一致性的视频生成及可控世界模型开辟了新方向[29]