Workflow
CineTrans
icon
搜索文档
ICLR 2026 | CineTrans: 首个转场可控的多镜头视频生成模型,打破闭源技术壁垒
机器之心· 2026-02-15 11:44
研究背景与挑战 - 视频生成模型在画面质量、条件控制和美学表现上已达到影视级效果,但影视级长视频通常是由具有转场的多镜头序列构成,而非单个镜头的无限延续 [2] - 闭源模型如Sora2、Veo3已能生成效果惊艳的多镜头视频,但如何生成带有自然转场、指定转场位置以及形成丰富语义流的视频,是视频生成模型面临的新挑战 [2][3] 核心方法与创新 - 研究团队提出了一种基于掩码机制的全新方法CineTrans,该方法基于对注意力机制的观察,提出了块对角掩码的通用机制,使视频生成模型能高效自动化转场 [4] - CineTrans是首个时间级可控的自动化转场模型,其核心创新在于利用扩散模型本身对多镜头序列的理解构建掩码,实现了符合模型先验的时间级转场控制 [4][14] - 该方法在未经训练的情况下,仅通过将掩码应用在部分注意力层,就能在保持视觉质量的同时实现较强的时间级控制效果 [14] - 与以往工作相比,CineTrans在逐镜头生成和端到端生成两个维度间实现了平衡,通过选择性掩码策略,既保证了镜头间的转场,又维持了全局一致性 [16][17] 数据集构建 - 为提升模型效果,研究团队构建了一个高质量、多镜头的数据集Cine250K,该数据集包含约25万个经过精细处理的多镜头视频-文本对 [4][21] - Cine250K的构建过程包括分割缝合、筛选和多层级标注三个阶段,提供了精确的镜头标签和丰富的剪辑艺术先验信息,对多镜头生成任务具有重要意义 [21][25] 实验结果与性能 - 在转场控制效果上,CineTrans大幅超过基线方法,其CineTrans-Unet版本的转场控制得分达到0.8598,CineTrans-DiT版本为0.7003,远高于其他对比方法 [24] - 在镜头间一致性方面,CineTrans-DiT的语义一致性得分为0.7858,视觉一致性得分为0.7874,表现优异 [24] - 在镜头内一致性方面,CineTrans-DiT在主体和背景一致性上分别达到0.9673和0.9775 [24] - 在美学质量和语义一致性上,CineTrans-DiT分别获得0.6508和0.2109的得分 [24] - 通过基于JS散度的新指标衡量,CineTrans生成的视频在一致性分布上最接近人类剪辑的视频数据,表现出贴近人类剪辑习惯的多镜头生成能力 [24] 技术细节与机制 - 研究观测发现,在大规模预训练模型中,某些注意力层表现出较强的镜头内关联和较弱的镜头间关联,注意力图矩阵呈现块对角结构,量化数据显示镜头内与镜头间关联概率比为26.88,相关系数r=0.71 [10] - 某些注意力层中所有视觉标记对第一帧信息高度关注,这启发了利用注意力内部隐式理解达成外部条件显式转场控制的方法设计 [12] - CineTrans的块对角掩码架构将第一帧作为锚点,在不破坏模型本身结构和先验知识的前提下实现预定义的转场时间控制 [14] - 该方法通过第一帧的锚点与未经掩码的全局注意力实现全局信息交互,同时在块对角掩码作用下限制镜头间交互,使相邻镜头间像素信息自然形成跳变,从而在保持全局一致性的前提下形成稳定转场 [18] 总结与影响 - CineTrans在转场与一致性之间的权衡问题上给出了行之有效的答案,为未来针对镜头设计、更多剪辑艺术先验的多镜头视频探索打下了坚实基础 [28] - 该研究是从逐镜头生成转向端到端生成的重要工作,其代码、模型权重和数据集已在GitHub开源 [29]