多镜头视频生成
搜索文档
CVPR 2026|AI开始会拍电影了:一分钟十镜头,全程不崩剧情
机器之心· 2026-04-10 11:50
研究背景与问题定义 - 多镜头视频生成是视频生成领域内一项具有挑战性的研究方向,其核心在于同时维持跨镜头的内容一致性(如人物身份、环境主体)和实现叙事的自然变化(如视角切换、动作推进)[3] - 现有方法存在两类主要局限:依赖固定滑动窗口的方法会丢弃较早镜头的信息;而基于关键帧的方法则限制了镜头间的交互,难以传递复杂的叙事细节[3] 核心解决方案:OneStory模型 - 该研究将多镜头视频生成任务重新定义为“下一个镜头生成”问题,采用基于前序镜头自回归生成后续镜头的方式,实现了按镜头逐步生成[11] - 模型以预训练的图像到视频基础模型进行初始化,从而继承了强大的视觉条件生成能力,并统一支持从文本到多镜头视频和从图像到多镜头视频两种生成方式[11][14] - 模型设计了两个关键模块以实现自适应记忆建模:1) 帧选择模块,用于从所有历史镜头中自动挑选与当前镜头提示语义最相关的帧作为记忆;2) 自适应调节器模块,根据重要性对选中的历史帧进行自适应分块,将关键信息压缩为高效的条件信号[16][17][22] 技术优势与创新 - 通过自适应记忆机制,模型能够在全局信息建模能力和计算效率之间取得平衡,有效避免了固定窗口带来的遗忘问题,并构建了全局跨镜头上下文[18][28] - 模型能够处理复杂叙事推进,生成分钟级、包含十个镜头的长视频故事,并在人物外观变化、从全景到特写的空间定位、人与物体交互发展等场景中保持高度一致性[10][29] 实验结果与意义 - 实验表明,该模型在复杂提示不断变化的情况下能持续推进叙事,同时保持人物和环境的一致性,其学习到的能力更接近于跨镜头叙事理解,而非表层的视觉连续性[26] - 这项研究为长视频生成和可控世界模型提供了一种有效的自适应记忆管理机制,为生成更长时程、更高一致性的视频开辟了新的可能性方向[28]
CVPR 2026 | 从「单帧」到「分镜」:STAGE重新定义AI电影叙事
机器之心· 2026-03-22 09:17
AI视频生成行业技术瓶颈与解决方案 - AI视频生成技术(如Sora、可灵、seedance 2.0)在视觉质量上取得显著进展,但在创作连贯“故事”时面临普遍瓶颈:多镜头视频的连贯性不足[2] - 当前主流多镜头视频生成方法存在两大流派及其固有缺陷:端到端“一镜到底”方法计算成本极高且过程难以控制;关键帧“分步走”方法则常导致镜头切换时出现“灾难性”断裂,如角色外观、动作、场景或视线的不连贯[3] - 现有方法问题的本质在于让AI“画单帧”,而非“拍分镜”,缺乏对镜头起承转合的结构化控制[6] STAGE框架的核心创新 - 提出了全新的叙事生成框架STAGE,其核心是以“电影分镜”为中心,将任务重新定义为直接生成每个镜头的“起始-结束帧对”[2][8] - 该框架通过预测结构化的分镜,为多镜头视频创作提供了前所未有的结构化控制力,旨在实现电影级的平滑过渡[5] - STAGE框架的核心是一个名为STEP2的起始-结束帧对预测模型,它能够将文字剧本精准翻译成一系列可执行的视觉分镜,如同一位AI导演[9][10] STAGE框架的技术优势与实现机制 - **结构化叙事控制**:通过预测起始-结束帧对,为多镜头叙事提供了三大优势:1) 所有镜头的起止帧串联形成视觉骨架,确保长期一致性;2) 明确定义单个镜头内部的动态变化;3) 直接对镜头间的“转场”进行建模,使剪辑点平滑有逻辑[12] - **确保跨镜头一致性**:设计了“多镜头记忆包”机制,能将历史镜头的视觉信息压缩成紧凑记忆,在生成新镜头时保证角色、场景的长期一致性,同时避免巨大计算开销[13] - **保证镜头内连贯性**:采用“双重编码策略”,将一个镜头的起始帧和结束帧捆绑进行联合编码,使模型在生成之初就理解整个镜头的动态,确保动作逻辑自洽[14] - **提升生成质量与“电影感”**:采用“两阶段训练方案”:第一阶段通过监督微调让模型在海量电影片段上学习基础镜头语言;第二阶段通过基于人类偏好的对齐训练,让模型学会识别“高级的、电影感的”转场[15] 数据基础与实验结果 - 为训练模型理解“分镜”与“转场”,构建了大规模ConStoryBoard数据集,包含从公开电影中筛选的10万个高质量多镜头片段,每个镜头都标注了起始-结束帧对、故事描述及电影学属性[17] - 进一步构建了包含人类偏好转场案例的子集ConStoryBoard-HP,专门用于第二阶段的偏好对齐训练[17] - 在“火车上的女人”主题的视觉对比中,STAGE完美保持了人物和环境的一致性,并实现了流畅叙事,而其他对比方法出现了场景不一致、风格失真或动作断裂等问题[22] 行业意义与发展方向 - STAGE框架标志着多镜头视频生成的未来方向在于结构化的叙事控制,而不仅仅是像素堆砌[24] - 通过引入“分镜”这一电影工业核心概念,为AI视频生成开辟了从“技术炫技”迈向“艺术创作”的新路径,使模型更像懂得用镜头组织故事的“导演”,而非仅会画画的“美工”[24] - 这项工作预示着当AI真正学会“拍电影”时,一个由AI辅助创作的、属于每个人的电影时代可能到来[24] - 该研究由北京邮电大学、北京大学、北京智源人工智能研究院合作完成,论文已录用至CVPR 2026,相关数据集和代码将逐步开源[3][4]
CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster
机器之心· 2026-03-06 12:31
行业技术演进 - 视频生成领域正从传统的单镜头生成迈入多镜头视频生成时代,近期可灵3.0、Seedance 2.0等产品已展示出多镜头叙事能力,支持一次生成多个导演级镜头[2] - 对于预算有限的开发者而言,参数量在10B(百亿)以上的大模型开发成本较高,100B(千亿)以上的模型更是令人望而却步[2] 公司/研究团队创新 - 大连理工大学、香港中文大学与快手可灵团队联合推出了名为“MultiShotMaster”的高度可控多镜头视频生成框架[2] - 该框架的创新性在于,即使在参数量约为1B(十亿)左右的小模型上,也能实现导演级的镜头调度和连贯叙事,并支持多图参考和主体运动控制[2] - 该论文已被CVPR 2026录用,基于Wan 1.3B和14B的多镜头模型的训练和推理代码已开源[4] - 开源版MultiShotMaster在由北大等高校举办、华为赞助的AAAI CVM Workshop竞赛中斩获冠军,竞赛重点考核世界知识一致性、相机移动一致性和跨镜头ID一致性[5] 技术框架核心 - MultiShotMaster调整了传统单镜头文生视频模型架构,使其能够生成多镜头视频,每个镜头单独通过3DVAE编码并在时序上级联融合[7] - 作者提出了“多镜头叙事RoPE”,在原始的3D RoPE基础上于镜头切换处施加相位偏移,这能显式标记镜头边界并维持叙事顺序,从而支持用户自由设定镜头数量和时长[7] - 框架构建了“总分式提示词结构”,使用全局提示词描述角色外观、环境及风格,镜头级提示词描述角色交互、场景布局、相机运镜,并防止跨镜头信息泄露[8] - 为实现可控性,框架设计了“时空位置感知的RoPE”,将指定时空区域的RoPE重采样为更细粒度后分配给参考图像tokens,从而实现参考图像在指定时空位置的注入[11] - 通过复制同一角色的Token并分配不同的时空RoPE,可以控制同一主体的运动轨迹[12] - 框架设计了“多镜头-多主体Attention Mask”,允许跨镜头视频tokens交互,但限制每个镜头的视频tokens仅能与视频内的参考tokens交互[12] - 整个框架没有引入外部参数,而是利用并改进了视频生成模型原有的3D-RoPE,实现了可控的多镜头视频生成,支持文本驱动的镜头间一致性、可灵活配置的镜头数量和时长、运动可控的主体定制化以及背景可定制的场景一致性[12] 实验数据与结果 - 在定量和定性的比较中,MultiShotMaster在镜头间一致性、切镜准确性、叙事连贯性、参考图一致性上都展现出了卓越的性能[17] - 定量实验结果显示,在文本对齐(Text Align.)指标上,带参考图的MultiShotMaster模型得分为0.227,高于对比模型VACE(0.201)和Phantom(0.224)[21] - 在镜头间语义一致性(Inter-Shot Consistency Semantic)指标上,带参考图的MultiShotMaster模型得分为0.702,高于其他对比模型[21] - 在叙事连贯性(Narrative Coherence)指标上,带参考图的MultiShotMaster模型得分为0.825,显著高于其他对比模型[21] - 在参考一致性(Reference Consistency)的多个子项(主体、背景、接地)上,带参考图的MultiShotMaster模型也取得了最佳或领先成绩[21] 数据构建方法 - 训练数据构建采用自动化流程:使用镜头切换检测模型TransNet V2将长视频裁切成短片段,再用场景分割模型SceneSeg聚合同一场景片段并采样多镜头视频[19] - 引入总分式提示词结构,使用Gemini-2.5-Flash生成全局描述和每个镜头的描述[19] - 整合YOLOv11、ByteTrack和SAM来检测、追踪和分割主体图像,再利用Gemini-2.5-Flash根据主体外观合并跨镜头的跟踪结果[19] - 使用OmniEraser获得干净的背景参考图[19] 总结与影响 - MultiShotMaster通过对RoPE的创新性改进,实现了高度可控的多镜头视频生成,其多镜头叙事RoPE与时空位置感知RoPE,在无需引入额外参数的情况下,实现了对镜头边界、角色一致性及运动轨迹的精细化操控[23] - 在仅约1B参数的模型规模下,该框架即展现出了卓越的叙事连贯性与跨镜头一致性,验证了其实现导演级控制的巨大潜力[23] - 自动化的多镜头数据标注流程及开源模型将为研究社区提供强力支持,有望推动AI视频创作进入一个叙事更连贯、表达更自由的新阶段[24]
ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型,打破闭源技术壁垒
机器之心· 2026-02-15 11:44
研究背景与挑战 - 视频生成模型在画面质量、条件控制和美学表现上已达到影视级效果,但影视级长视频通常是由具有转场的多镜头序列构成,而非单个镜头的无限延续 [2] - 闭源模型如Sora2、Veo3已能生成效果惊艳的多镜头视频,但如何生成带有自然转场、指定转场位置以及形成丰富语义流的视频,是视频生成模型面临的新挑战 [2][3] 核心方法与创新 - 研究团队提出了一种基于掩码机制的全新方法CineTrans,该方法基于对注意力机制的观察,提出了块对角掩码的通用机制,使视频生成模型能高效自动化转场 [4] - CineTrans是首个时间级可控的自动化转场模型,其核心创新在于利用扩散模型本身对多镜头序列的理解构建掩码,实现了符合模型先验的时间级转场控制 [4][14] - 该方法在未经训练的情况下,仅通过将掩码应用在部分注意力层,就能在保持视觉质量的同时实现较强的时间级控制效果 [14] - 与以往工作相比,CineTrans在逐镜头生成和端到端生成两个维度间实现了平衡,通过选择性掩码策略,既保证了镜头间的转场,又维持了全局一致性 [16][17] 数据集构建 - 为提升模型效果,研究团队构建了一个高质量、多镜头的数据集Cine250K,该数据集包含约25万个经过精细处理的多镜头视频-文本对 [4][21] - Cine250K的构建过程包括分割缝合、筛选和多层级标注三个阶段,提供了精确的镜头标签和丰富的剪辑艺术先验信息,对多镜头生成任务具有重要意义 [21][25] 实验结果与性能 - 在转场控制效果上,CineTrans大幅超过基线方法,其CineTrans-Unet版本的转场控制得分达到0.8598,CineTrans-DiT版本为0.7003,远高于其他对比方法 [24] - 在镜头间一致性方面,CineTrans-DiT的语义一致性得分为0.7858,视觉一致性得分为0.7874,表现优异 [24] - 在镜头内一致性方面,CineTrans-DiT在主体和背景一致性上分别达到0.9673和0.9775 [24] - 在美学质量和语义一致性上,CineTrans-DiT分别获得0.6508和0.2109的得分 [24] - 通过基于JS散度的新指标衡量,CineTrans生成的视频在一致性分布上最接近人类剪辑的视频数据,表现出贴近人类剪辑习惯的多镜头生成能力 [24] 技术细节与机制 - 研究观测发现,在大规模预训练模型中,某些注意力层表现出较强的镜头内关联和较弱的镜头间关联,注意力图矩阵呈现块对角结构,量化数据显示镜头内与镜头间关联概率比为26.88,相关系数r=0.71 [10] - 某些注意力层中所有视觉标记对第一帧信息高度关注,这启发了利用注意力内部隐式理解达成外部条件显式转场控制的方法设计 [12] - CineTrans的块对角掩码架构将第一帧作为锚点,在不破坏模型本身结构和先验知识的前提下实现预定义的转场时间控制 [14] - 该方法通过第一帧的锚点与未经掩码的全局注意力实现全局信息交互,同时在块对角掩码作用下限制镜头间交互,使相邻镜头间像素信息自然形成跳变,从而在保持全局一致性的前提下形成稳定转场 [18] 总结与影响 - CineTrans在转场与一致性之间的权衡问题上给出了行之有效的答案,为未来针对镜头设计、更多剪辑艺术先验的多镜头视频探索打下了坚实基础 [28] - 该研究是从逐镜头生成转向端到端生成的重要工作,其代码、模型权重和数据集已在GitHub开源 [29]