Workflow
OneStory
icon
搜索文档
视频生成不再「断片」:OneStory给模型装上「选择性记忆」,跨镜头讲故事人物场景始终如一丨CVPR'26
量子位· 2026-04-10 13:17
文章核心观点 - 多镜头视频生成面临维持跨镜头内容一致性与遵循叙事变化的双重挑战,现有方法在长程上下文维护上存在局限[3] - Meta与University of Copenhagen的研究者提出OneStory模型,通过自适应记忆建模机制,有效保留全局跨镜头上下文,实现连贯的多镜头视频叙事[4] - OneStory采用next-shot generation的自回归生成方式,并设计Frame Selection与Adaptive Conditioner两个关键模块,在计算成本可控的前提下,生成长达分钟级、包含十个镜头的连贯视频故事[9][10][16] 多镜头视频生成的挑战与定义 - 多镜头视频生成要求模型同时处理需在不同镜头间保持稳定的信息(如人物身份、环境主体)和需随叙事自然变化的信息(如视角切换、场景转场)[3] - 任务定义为:给定每个镜头的提示词及可选的初始图像,模型需生成多个镜头,并维持跨镜头内容一致性及对每个镜头提示词的准确遵循[3] - 现有方法主要局限在于:依赖固定滑动窗口导致较早信息被丢弃,或仅依赖单张关键帧难以传递复杂的叙事细节[3] OneStory模型的核心创新 - 将问题重构为next-shot generation,实现基于已生成镜头自回归地生成下一个镜头的shot-by-shot生成方式[10] - 以预训练的image-to-video基础模型初始化,自然继承其强大的视觉条件生成能力,首个镜头可由任何text-to-video或image-to-video模型生成,后续镜头由OneStory逐步生成[14] - 在同一个模型中统一支持text-to-multi-shot video和image-to-multi-shot video两种生成方式[15] 关键技术模块:自适应记忆建模 - **Frame Selection模块**:从所有历史镜头中自动挑选与当前镜头提示词语义最相关的帧作为记忆,解决了固定窗口的遗忘问题,构建了全局跨镜头上下文[19][20] - **Adaptive Conditioner模块**:根据Frame Selection预测的重要性,对选中的历史帧进行自适应patchification,重要信息保留细粒度表示,次要信息被更强压缩,从而将历史上下文转化为紧凑有效的条件信号注入生成过程[21][24] 模型能力与数据构建 - 可生成长达分钟级、包含十个镜头的长视频故事,在复杂叙事推进中保持人物与场景的一致性[9] - 在out-of-domain场景中展现出良好的泛化能力[9] - 数据构建仅保留分镜头提示词,并将每个镜头写成带有前文指代关系的描述,更贴近真实故事讲述逻辑,使镜头间形成更自然的叙事流[25] 实验结果与意义 - 实验表明,模型能在复杂提示不断变化的情况下持续推进叙事,同时保持人物和环境的一致性[28] - 模型表现包括外观变化下的人物一致性保持、从大全景到局部特写时的空间定位能力、以及人与物体交互发展过程中的叙事延续能力[29] - 模型学到的更接近于一种跨镜头叙事理解能力,而非表层的视觉连续性[28] - 该工作为视频模型提供了一种有效的自适应memory管理机制,为更长时程、更高一致性的视频生成及可控世界模型开辟了新方向[29]
CVPR 2026|AI开始会拍电影了:一分钟十镜头,全程不崩剧情
机器之心· 2026-04-10 11:50
研究背景与问题定义 - 多镜头视频生成是视频生成领域内一项具有挑战性的研究方向,其核心在于同时维持跨镜头的内容一致性(如人物身份、环境主体)和实现叙事的自然变化(如视角切换、动作推进)[3] - 现有方法存在两类主要局限:依赖固定滑动窗口的方法会丢弃较早镜头的信息;而基于关键帧的方法则限制了镜头间的交互,难以传递复杂的叙事细节[3] 核心解决方案:OneStory模型 - 该研究将多镜头视频生成任务重新定义为“下一个镜头生成”问题,采用基于前序镜头自回归生成后续镜头的方式,实现了按镜头逐步生成[11] - 模型以预训练的图像到视频基础模型进行初始化,从而继承了强大的视觉条件生成能力,并统一支持从文本到多镜头视频和从图像到多镜头视频两种生成方式[11][14] - 模型设计了两个关键模块以实现自适应记忆建模:1) 帧选择模块,用于从所有历史镜头中自动挑选与当前镜头提示语义最相关的帧作为记忆;2) 自适应调节器模块,根据重要性对选中的历史帧进行自适应分块,将关键信息压缩为高效的条件信号[16][17][22] 技术优势与创新 - 通过自适应记忆机制,模型能够在全局信息建模能力和计算效率之间取得平衡,有效避免了固定窗口带来的遗忘问题,并构建了全局跨镜头上下文[18][28] - 模型能够处理复杂叙事推进,生成分钟级、包含十个镜头的长视频故事,并在人物外观变化、从全景到特写的空间定位、人与物体交互发展等场景中保持高度一致性[10][29] 实验结果与意义 - 实验表明,该模型在复杂提示不断变化的情况下能持续推进叙事,同时保持人物和环境的一致性,其学习到的能力更接近于跨镜头叙事理解,而非表层的视觉连续性[26] - 这项研究为长视频生成和可控世界模型提供了一种有效的自适应记忆管理机制,为生成更长时程、更高一致性的视频开辟了新的可能性方向[28]