生数科技CEO骆怡航：当AI理解镜头，多模态生成模型如何重构全球创意与生产体系｜「锦秋会」分享

视频生成模型行业发展趋势 - 2025年视频生成模型能力突飞猛进，从生成几秒素材发展到重构整个内容生产链条，包括创作、剪辑、运镜、表演和分发 [2] - 行业变革本质是视频开始以AI方式被生产，创作逻辑从人驱动工具使用转向智能驱动协作生成，未来内容依赖创意、数据与算法共同完成即时生成 [3] - 每一次模型能力突破都会带来新生产方式，可能孕育下一个抖音或B站级别的应用 [4] - 内容创作正从文字、图片、视频多模态输入过渡到以参考为核心零门槛生成模式，这是从技术走向产业拐点 [8][9] 生数科技技术定位与突破 - 公司聚焦数字世界多模态大模型，于2022年全球最早发布U-ViT架构，也是中国首个视频生成模型Vidu [16] - 从2024到2025年，视频生成技术和应用迅速进入内容产业生产环节，当下及明年更关注模型到行业落地发展 [16] - 公司提出参考生视频作为变革核心支点，让创作者只需确定人物、道具、场景即可通过AI自动延展故事与镜头语言 [9] - Vidu Q2基础能力已比较接近院线级创作标准，计划明年与合作伙伴共同制作长篇电影并在院线上映 [44] 视频生成应用场景与挑战 - 应用分为三大方向：互动娱乐领域视频模型在特效和娱乐方面已基本没问题；商业制作强调效率、成本与品质平衡；专业创作需要AI在视觉水准上进一步提升 [18] - 多模态生成模型面临三大挑战：能否生成高一致性更高品质音视频内容；能否在保持一致前提下从5-8秒扩展到30秒、1分钟甚至更长；能否从服务专业创作者走向大型动画影视公司及大众 [18] - 当前文生视频、图生视频、多帧生成都不是AI最佳创作范式，文生视频在专业创作里很少使用，主要用于灵感激发和初始创意 [23][25] 参考生视频技术优势 - Vidu全球首创参考生视频，目标是砍掉传统制作流程中间环节，让创意直接以视频形式呈现 [30] - 创作者只需确定主体（人物、道具、场景、风格、特效）再配合提示词即可生成视频，不需要首帧完整图片或其他关键帧 [35] - 主体可以泛化，任何角色都可以当成主体，目前Vidu可同时支持上传7个主体，并根据提示词直接生成视频 [37] - 在Vidu全球创作者和企业用户整体调用量中，60%以上创作方式是参考生视频 [47] 技术能力具体参数 - Vidu当前能保证5秒、8秒片段一致性，视频延长功能可延长到5分钟，满足绝大部分单场景或多场景创作诉求 [40] - 全球AI视频厂商战队赛中，四名创作者利用Vidu参考生视频在2小时内现场创作出1分钟以上故事，获得赛事最高荣誉 [49] - 参考生视频已应用于广告、漫剧、文旅、动画影视等行业，在满足商业创作多主体一致性需求同时更好提效降本实现故事创意 [51]