跨镜头叙事理解
搜索文档
CVPR 2026|AI开始会拍电影了:一分钟十镜头,全程不崩剧情
机器之心· 2026-04-10 11:50
研究背景与问题定义 - 多镜头视频生成是视频生成领域内一项具有挑战性的研究方向,其核心在于同时维持跨镜头的内容一致性(如人物身份、环境主体)和实现叙事的自然变化(如视角切换、动作推进)[3] - 现有方法存在两类主要局限:依赖固定滑动窗口的方法会丢弃较早镜头的信息;而基于关键帧的方法则限制了镜头间的交互,难以传递复杂的叙事细节[3] 核心解决方案:OneStory模型 - 该研究将多镜头视频生成任务重新定义为“下一个镜头生成”问题,采用基于前序镜头自回归生成后续镜头的方式,实现了按镜头逐步生成[11] - 模型以预训练的图像到视频基础模型进行初始化,从而继承了强大的视觉条件生成能力,并统一支持从文本到多镜头视频和从图像到多镜头视频两种生成方式[11][14] - 模型设计了两个关键模块以实现自适应记忆建模:1) 帧选择模块,用于从所有历史镜头中自动挑选与当前镜头提示语义最相关的帧作为记忆;2) 自适应调节器模块,根据重要性对选中的历史帧进行自适应分块,将关键信息压缩为高效的条件信号[16][17][22] 技术优势与创新 - 通过自适应记忆机制,模型能够在全局信息建模能力和计算效率之间取得平衡,有效避免了固定窗口带来的遗忘问题,并构建了全局跨镜头上下文[18][28] - 模型能够处理复杂叙事推进,生成分钟级、包含十个镜头的长视频故事,并在人物外观变化、从全景到特写的空间定位、人与物体交互发展等场景中保持高度一致性[10][29] 实验结果与意义 - 实验表明,该模型在复杂提示不断变化的情况下能持续推进叙事,同时保持人物和环境的一致性,其学习到的能力更接近于跨镜头叙事理解,而非表层的视觉连续性[26] - 这项研究为长视频生成和可控世界模型提供了一种有效的自适应记忆管理机制,为生成更长时程、更高一致性的视频开辟了新的可能性方向[28]