ConStoryBoard数据集 - 财报，业绩电话会，研报，新闻

ConStoryBoard数据集

搜索文档

CVPR 2026 | 从「单帧」到「分镜」：STAGE重新定义AI电影叙事

机器之心· 2026-03-22 09:17

AI视频生成行业技术瓶颈与解决方案 - AI视频生成技术（如Sora、可灵、seedance 2.0）在视觉质量上取得显著进展，但在创作连贯“故事”时面临普遍瓶颈：多镜头视频的连贯性不足[2] - 当前主流多镜头视频生成方法存在两大流派及其固有缺陷：端到端“一镜到底”方法计算成本极高且过程难以控制；关键帧“分步走”方法则常导致镜头切换时出现“灾难性”断裂，如角色外观、动作、场景或视线的不连贯[3] - 现有方法问题的本质在于让AI“画单帧”，而非“拍分镜”，缺乏对镜头起承转合的结构化控制[6] STAGE框架的核心创新 - 提出了全新的叙事生成框架STAGE，其核心是以“电影分镜”为中心，将任务重新定义为直接生成每个镜头的“起始-结束帧对”[2][8] - 该框架通过预测结构化的分镜，为多镜头视频创作提供了前所未有的结构化控制力，旨在实现电影级的平滑过渡[5] - STAGE框架的核心是一个名为STEP2的起始-结束帧对预测模型，它能够将文字剧本精准翻译成一系列可执行的视觉分镜，如同一位AI导演[9][10] STAGE框架的技术优势与实现机制 - **结构化叙事控制**：通过预测起始-结束帧对，为多镜头叙事提供了三大优势：1) 所有镜头的起止帧串联形成视觉骨架，确保长期一致性；2) 明确定义单个镜头内部的动态变化；3) 直接对镜头间的“转场”进行建模，使剪辑点平滑有逻辑[12] - **确保跨镜头一致性**：设计了“多镜头记忆包”机制，能将历史镜头的视觉信息压缩成紧凑记忆，在生成新镜头时保证角色、场景的长期一致性，同时避免巨大计算开销[13] - **保证镜头内连贯性**：采用“双重编码策略”，将一个镜头的起始帧和结束帧捆绑进行联合编码，使模型在生成之初就理解整个镜头的动态，确保动作逻辑自洽[14] - **提升生成质量与“电影感”**：采用“两阶段训练方案”：第一阶段通过监督微调让模型在海量电影片段上学习基础镜头语言；第二阶段通过基于人类偏好的对齐训练，让模型学会识别“高级的、电影感的”转场[15] 数据基础与实验结果 - 为训练模型理解“分镜”与“转场”，构建了大规模ConStoryBoard数据集，包含从公开电影中筛选的10万个高质量多镜头片段，每个镜头都标注了起始-结束帧对、故事描述及电影学属性[17] - 进一步构建了包含人类偏好转场案例的子集ConStoryBoard-HP，专门用于第二阶段的偏好对齐训练[17] - 在“火车上的女人”主题的视觉对比中，STAGE完美保持了人物和环境的一致性，并实现了流畅叙事，而其他对比方法出现了场景不一致、风格失真或动作断裂等问题[22] 行业意义与发展方向 - STAGE框架标志着多镜头视频生成的未来方向在于结构化的叙事控制，而不仅仅是像素堆砌[24] - 通过引入“分镜”这一电影工业核心概念，为AI视频生成开辟了从“技术炫技”迈向“艺术创作”的新路径，使模型更像懂得用镜头组织故事的“导演”，而非仅会画画的“美工”[24] - 这项工作预示着当AI真正学会“拍电影”时，一个由AI辅助创作的、属于每个人的电影时代可能到来[24] - 该研究由北京邮电大学、北京大学、北京智源人工智能研究院合作完成，论文已录用至CVPR 2026，相关数据集和代码将逐步开源[3][4]