ConStoryBoard数据集
搜索文档
CVPR 2026 | 从「单帧」到「分镜」:STAGE重新定义AI电影叙事
机器之心· 2026-03-22 09:17
AI视频生成行业技术瓶颈与解决方案 - AI视频生成技术(如Sora、可灵、seedance 2.0)在视觉质量上取得显著进展,但在创作连贯“故事”时面临普遍瓶颈:多镜头视频的连贯性不足[2] - 当前主流多镜头视频生成方法存在两大流派及其固有缺陷:端到端“一镜到底”方法计算成本极高且过程难以控制;关键帧“分步走”方法则常导致镜头切换时出现“灾难性”断裂,如角色外观、动作、场景或视线的不连贯[3] - 现有方法问题的本质在于让AI“画单帧”,而非“拍分镜”,缺乏对镜头起承转合的结构化控制[6] STAGE框架的核心创新 - 提出了全新的叙事生成框架STAGE,其核心是以“电影分镜”为中心,将任务重新定义为直接生成每个镜头的“起始-结束帧对”[2][8] - 该框架通过预测结构化的分镜,为多镜头视频创作提供了前所未有的结构化控制力,旨在实现电影级的平滑过渡[5] - STAGE框架的核心是一个名为STEP2的起始-结束帧对预测模型,它能够将文字剧本精准翻译成一系列可执行的视觉分镜,如同一位AI导演[9][10] STAGE框架的技术优势与实现机制 - **结构化叙事控制**:通过预测起始-结束帧对,为多镜头叙事提供了三大优势:1) 所有镜头的起止帧串联形成视觉骨架,确保长期一致性;2) 明确定义单个镜头内部的动态变化;3) 直接对镜头间的“转场”进行建模,使剪辑点平滑有逻辑[12] - **确保跨镜头一致性**:设计了“多镜头记忆包”机制,能将历史镜头的视觉信息压缩成紧凑记忆,在生成新镜头时保证角色、场景的长期一致性,同时避免巨大计算开销[13] - **保证镜头内连贯性**:采用“双重编码策略”,将一个镜头的起始帧和结束帧捆绑进行联合编码,使模型在生成之初就理解整个镜头的动态,确保动作逻辑自洽[14] - **提升生成质量与“电影感”**:采用“两阶段训练方案”:第一阶段通过监督微调让模型在海量电影片段上学习基础镜头语言;第二阶段通过基于人类偏好的对齐训练,让模型学会识别“高级的、电影感的”转场[15] 数据基础与实验结果 - 为训练模型理解“分镜”与“转场”,构建了大规模ConStoryBoard数据集,包含从公开电影中筛选的10万个高质量多镜头片段,每个镜头都标注了起始-结束帧对、故事描述及电影学属性[17] - 进一步构建了包含人类偏好转场案例的子集ConStoryBoard-HP,专门用于第二阶段的偏好对齐训练[17] - 在“火车上的女人”主题的视觉对比中,STAGE完美保持了人物和环境的一致性,并实现了流畅叙事,而其他对比方法出现了场景不一致、风格失真或动作断裂等问题[22] 行业意义与发展方向 - STAGE框架标志着多镜头视频生成的未来方向在于结构化的叙事控制,而不仅仅是像素堆砌[24] - 通过引入“分镜”这一电影工业核心概念,为AI视频生成开辟了从“技术炫技”迈向“艺术创作”的新路径,使模型更像懂得用镜头组织故事的“导演”,而非仅会画画的“美工”[24] - 这项工作预示着当AI真正学会“拍电影”时,一个由AI辅助创作的、属于每个人的电影时代可能到来[24] - 该研究由北京邮电大学、北京大学、北京智源人工智能研究院合作完成,论文已录用至CVPR 2026,相关数据集和代码将逐步开源[3][4]