CVPR 2026 | 1B模型也能当多镜头导演？大连理工&快手可灵开源力作MultiShotMaster

行业技术演进 - 视频生成领域正从传统的单镜头生成迈入多镜头视频生成时代，近期可灵3.0、Seedance 2.0等产品已展示出多镜头叙事能力，支持一次生成多个导演级镜头[2] - 对于预算有限的开发者而言，参数量在10B（百亿）以上的大模型开发成本较高，100B（千亿）以上的模型更是令人望而却步[2] 公司/研究团队创新 - 大连理工大学、香港中文大学与快手可灵团队联合推出了名为“MultiShotMaster”的高度可控多镜头视频生成框架[2] - 该框架的创新性在于，即使在参数量约为1B（十亿）左右的小模型上，也能实现导演级的镜头调度和连贯叙事，并支持多图参考和主体运动控制[2] - 该论文已被CVPR 2026录用，基于Wan 1.3B和14B的多镜头模型的训练和推理代码已开源[4] - 开源版MultiShotMaster在由北大等高校举办、华为赞助的AAAI CVM Workshop竞赛中斩获冠军，竞赛重点考核世界知识一致性、相机移动一致性和跨镜头ID一致性[5] 技术框架核心 - MultiShotMaster调整了传统单镜头文生视频模型架构，使其能够生成多镜头视频，每个镜头单独通过3DVAE编码并在时序上级联融合[7] - 作者提出了“多镜头叙事RoPE”，在原始的3D RoPE基础上于镜头切换处施加相位偏移，这能显式标记镜头边界并维持叙事顺序，从而支持用户自由设定镜头数量和时长[7] - 框架构建了“总分式提示词结构”，使用全局提示词描述角色外观、环境及风格，镜头级提示词描述角色交互、场景布局、相机运镜，并防止跨镜头信息泄露[8] - 为实现可控性，框架设计了“时空位置感知的RoPE”，将指定时空区域的RoPE重采样为更细粒度后分配给参考图像tokens，从而实现参考图像在指定时空位置的注入[11] - 通过复制同一角色的Token并分配不同的时空RoPE，可以控制同一主体的运动轨迹[12] - 框架设计了“多镜头-多主体Attention Mask”，允许跨镜头视频tokens交互，但限制每个镜头的视频tokens仅能与视频内的参考tokens交互[12] - 整个框架没有引入外部参数，而是利用并改进了视频生成模型原有的3D-RoPE，实现了可控的多镜头视频生成，支持文本驱动的镜头间一致性、可灵活配置的镜头数量和时长、运动可控的主体定制化以及背景可定制的场景一致性[12] 实验数据与结果 - 在定量和定性的比较中，MultiShotMaster在镜头间一致性、切镜准确性、叙事连贯性、参考图一致性上都展现出了卓越的性能[17] - 定量实验结果显示，在文本对齐（Text Align.）指标上，带参考图的MultiShotMaster模型得分为0.227，高于对比模型VACE（0.201）和Phantom（0.224）[21] - 在镜头间语义一致性（Inter-Shot Consistency Semantic）指标上，带参考图的MultiShotMaster模型得分为0.702，高于其他对比模型[21] - 在叙事连贯性（Narrative Coherence）指标上，带参考图的MultiShotMaster模型得分为0.825，显著高于其他对比模型[21] - 在参考一致性（Reference Consistency）的多个子项（主体、背景、接地）上，带参考图的MultiShotMaster模型也取得了最佳或领先成绩[21] 数据构建方法 - 训练数据构建采用自动化流程：使用镜头切换检测模型TransNet V2将长视频裁切成短片段，再用场景分割模型SceneSeg聚合同一场景片段并采样多镜头视频[19] - 引入总分式提示词结构，使用Gemini-2.5-Flash生成全局描述和每个镜头的描述[19] - 整合YOLOv11、ByteTrack和SAM来检测、追踪和分割主体图像，再利用Gemini-2.5-Flash根据主体外观合并跨镜头的跟踪结果[19] - 使用OmniEraser获得干净的背景参考图[19] 总结与影响 - MultiShotMaster通过对RoPE的创新性改进，实现了高度可控的多镜头视频生成，其多镜头叙事RoPE与时空位置感知RoPE，在无需引入额外参数的情况下，实现了对镜头边界、角色一致性及运动轨迹的精细化操控[23] - 在仅约1B参数的模型规模下，该框架即展现出了卓越的叙事连贯性与跨镜头一致性，验证了其实现导演级控制的巨大潜力[23] - 自动化的多镜头数据标注流程及开源模型将为研究社区提供强力支持，有望推动AI视频创作进入一个叙事更连贯、表达更自由的新阶段[24]