Workflow
多镜头视频生成
icon
搜索文档
CVPR 2026 | 1B模型也能当多镜头导演?大连理工&快手可灵开源力作MultiShotMaster
机器之心· 2026-03-06 12:31
行业技术演进 - 视频生成领域正从传统的单镜头生成迈入多镜头视频生成时代,近期可灵3.0、Seedance 2.0等产品已展示出多镜头叙事能力,支持一次生成多个导演级镜头[2] - 对于预算有限的开发者而言,参数量在10B(百亿)以上的大模型开发成本较高,100B(千亿)以上的模型更是令人望而却步[2] 公司/研究团队创新 - 大连理工大学、香港中文大学与快手可灵团队联合推出了名为“MultiShotMaster”的高度可控多镜头视频生成框架[2] - 该框架的创新性在于,即使在参数量约为1B(十亿)左右的小模型上,也能实现导演级的镜头调度和连贯叙事,并支持多图参考和主体运动控制[2] - 该论文已被CVPR 2026录用,基于Wan 1.3B和14B的多镜头模型的训练和推理代码已开源[4] - 开源版MultiShotMaster在由北大等高校举办、华为赞助的AAAI CVM Workshop竞赛中斩获冠军,竞赛重点考核世界知识一致性、相机移动一致性和跨镜头ID一致性[5] 技术框架核心 - MultiShotMaster调整了传统单镜头文生视频模型架构,使其能够生成多镜头视频,每个镜头单独通过3DVAE编码并在时序上级联融合[7] - 作者提出了“多镜头叙事RoPE”,在原始的3D RoPE基础上于镜头切换处施加相位偏移,这能显式标记镜头边界并维持叙事顺序,从而支持用户自由设定镜头数量和时长[7] - 框架构建了“总分式提示词结构”,使用全局提示词描述角色外观、环境及风格,镜头级提示词描述角色交互、场景布局、相机运镜,并防止跨镜头信息泄露[8] - 为实现可控性,框架设计了“时空位置感知的RoPE”,将指定时空区域的RoPE重采样为更细粒度后分配给参考图像tokens,从而实现参考图像在指定时空位置的注入[11] - 通过复制同一角色的Token并分配不同的时空RoPE,可以控制同一主体的运动轨迹[12] - 框架设计了“多镜头-多主体Attention Mask”,允许跨镜头视频tokens交互,但限制每个镜头的视频tokens仅能与视频内的参考tokens交互[12] - 整个框架没有引入外部参数,而是利用并改进了视频生成模型原有的3D-RoPE,实现了可控的多镜头视频生成,支持文本驱动的镜头间一致性、可灵活配置的镜头数量和时长、运动可控的主体定制化以及背景可定制的场景一致性[12] 实验数据与结果 - 在定量和定性的比较中,MultiShotMaster在镜头间一致性、切镜准确性、叙事连贯性、参考图一致性上都展现出了卓越的性能[17] - 定量实验结果显示,在文本对齐(Text Align.)指标上,带参考图的MultiShotMaster模型得分为0.227,高于对比模型VACE(0.201)和Phantom(0.224)[21] - 在镜头间语义一致性(Inter-Shot Consistency Semantic)指标上,带参考图的MultiShotMaster模型得分为0.702,高于其他对比模型[21] - 在叙事连贯性(Narrative Coherence)指标上,带参考图的MultiShotMaster模型得分为0.825,显著高于其他对比模型[21] - 在参考一致性(Reference Consistency)的多个子项(主体、背景、接地)上,带参考图的MultiShotMaster模型也取得了最佳或领先成绩[21] 数据构建方法 - 训练数据构建采用自动化流程:使用镜头切换检测模型TransNet V2将长视频裁切成短片段,再用场景分割模型SceneSeg聚合同一场景片段并采样多镜头视频[19] - 引入总分式提示词结构,使用Gemini-2.5-Flash生成全局描述和每个镜头的描述[19] - 整合YOLOv11、ByteTrack和SAM来检测、追踪和分割主体图像,再利用Gemini-2.5-Flash根据主体外观合并跨镜头的跟踪结果[19] - 使用OmniEraser获得干净的背景参考图[19] 总结与影响 - MultiShotMaster通过对RoPE的创新性改进,实现了高度可控的多镜头视频生成,其多镜头叙事RoPE与时空位置感知RoPE,在无需引入额外参数的情况下,实现了对镜头边界、角色一致性及运动轨迹的精细化操控[23] - 在仅约1B参数的模型规模下,该框架即展现出了卓越的叙事连贯性与跨镜头一致性,验证了其实现导演级控制的巨大潜力[23] - 自动化的多镜头数据标注流程及开源模型将为研究社区提供强力支持,有望推动AI视频创作进入一个叙事更连贯、表达更自由的新阶段[24]
ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型,打破闭源技术壁垒
机器之心· 2026-02-15 11:44
研究背景与挑战 - 视频生成模型在画面质量、条件控制和美学表现上已达到影视级效果,但影视级长视频通常是由具有转场的多镜头序列构成,而非单个镜头的无限延续 [2] - 闭源模型如Sora2、Veo3已能生成效果惊艳的多镜头视频,但如何生成带有自然转场、指定转场位置以及形成丰富语义流的视频,是视频生成模型面临的新挑战 [2][3] 核心方法与创新 - 研究团队提出了一种基于掩码机制的全新方法CineTrans,该方法基于对注意力机制的观察,提出了块对角掩码的通用机制,使视频生成模型能高效自动化转场 [4] - CineTrans是首个时间级可控的自动化转场模型,其核心创新在于利用扩散模型本身对多镜头序列的理解构建掩码,实现了符合模型先验的时间级转场控制 [4][14] - 该方法在未经训练的情况下,仅通过将掩码应用在部分注意力层,就能在保持视觉质量的同时实现较强的时间级控制效果 [14] - 与以往工作相比,CineTrans在逐镜头生成和端到端生成两个维度间实现了平衡,通过选择性掩码策略,既保证了镜头间的转场,又维持了全局一致性 [16][17] 数据集构建 - 为提升模型效果,研究团队构建了一个高质量、多镜头的数据集Cine250K,该数据集包含约25万个经过精细处理的多镜头视频-文本对 [4][21] - Cine250K的构建过程包括分割缝合、筛选和多层级标注三个阶段,提供了精确的镜头标签和丰富的剪辑艺术先验信息,对多镜头生成任务具有重要意义 [21][25] 实验结果与性能 - 在转场控制效果上,CineTrans大幅超过基线方法,其CineTrans-Unet版本的转场控制得分达到0.8598,CineTrans-DiT版本为0.7003,远高于其他对比方法 [24] - 在镜头间一致性方面,CineTrans-DiT的语义一致性得分为0.7858,视觉一致性得分为0.7874,表现优异 [24] - 在镜头内一致性方面,CineTrans-DiT在主体和背景一致性上分别达到0.9673和0.9775 [24] - 在美学质量和语义一致性上,CineTrans-DiT分别获得0.6508和0.2109的得分 [24] - 通过基于JS散度的新指标衡量,CineTrans生成的视频在一致性分布上最接近人类剪辑的视频数据,表现出贴近人类剪辑习惯的多镜头生成能力 [24] 技术细节与机制 - 研究观测发现,在大规模预训练模型中,某些注意力层表现出较强的镜头内关联和较弱的镜头间关联,注意力图矩阵呈现块对角结构,量化数据显示镜头内与镜头间关联概率比为26.88,相关系数r=0.71 [10] - 某些注意力层中所有视觉标记对第一帧信息高度关注,这启发了利用注意力内部隐式理解达成外部条件显式转场控制的方法设计 [12] - CineTrans的块对角掩码架构将第一帧作为锚点,在不破坏模型本身结构和先验知识的前提下实现预定义的转场时间控制 [14] - 该方法通过第一帧的锚点与未经掩码的全局注意力实现全局信息交互,同时在块对角掩码作用下限制镜头间交互,使相邻镜头间像素信息自然形成跳变,从而在保持全局一致性的前提下形成稳定转场 [18] 总结与影响 - CineTrans在转场与一致性之间的权衡问题上给出了行之有效的答案,为未来针对镜头设计、更多剪辑艺术先验的多镜头视频探索打下了坚实基础 [28] - 该研究是从逐镜头生成转向端到端生成的重要工作,其代码、模型权重和数据集已在GitHub开源 [29]