生数科技CEO骆怡航:当AI理解镜头,多模态生成模型如何重构全球创意与生产体系 |「锦秋会」分享
锦秋集·2025-11-05 13:48

视频生成模型行业发展趋势 - 2025年视频生成模型能力突飞猛进,从生成几秒素材发展到重构整个内容生产链条,包括创作、剪辑、运镜、表演和分发 [2] - 行业变革本质是视频开始以AI方式被生产,创作逻辑从人驱动工具使用转向智能驱动协作生成,未来内容依赖创意、数据与算法共同完成即时生成 [3] - 每一次模型能力突破都会带来新生产方式,可能孕育下一个抖音或B站级别的应用 [4] - 内容创作正从文字、图片、视频多模态输入过渡到以参考为核心零门槛生成模式,这是从技术走向产业拐点 [8][9] 生数科技技术定位与突破 - 公司聚焦数字世界多模态大模型,于2022年全球最早发布U-ViT架构,也是中国首个视频生成模型Vidu [16] - 从2024到2025年,视频生成技术和应用迅速进入内容产业生产环节,当下及明年更关注模型到行业落地发展 [16] - 公司提出参考生视频作为变革核心支点,让创作者只需确定人物、道具、场景即可通过AI自动延展故事与镜头语言 [9] - Vidu Q2基础能力已比较接近院线级创作标准,计划明年与合作伙伴共同制作长篇电影并在院线上映 [44] 视频生成应用场景与挑战 - 应用分为三大方向:互动娱乐领域视频模型在特效和娱乐方面已基本没问题;商业制作强调效率、成本与品质平衡;专业创作需要AI在视觉水准上进一步提升 [18] - 多模态生成模型面临三大挑战:能否生成高一致性更高品质音视频内容;能否在保持一致前提下从5-8秒扩展到30秒、1分钟甚至更长;能否从服务专业创作者走向大型动画影视公司及大众 [18] - 当前文生视频、图生视频、多帧生成都不是AI最佳创作范式,文生视频在专业创作里很少使用,主要用于灵感激发和初始创意 [23][25] 参考生视频技术优势 - Vidu全球首创参考生视频,目标是砍掉传统制作流程中间环节,让创意直接以视频形式呈现 [30] - 创作者只需确定主体(人物、道具、场景、风格、特效)再配合提示词即可生成视频,不需要首帧完整图片或其他关键帧 [35] - 主体可以泛化,任何角色都可以当成主体,目前Vidu可同时支持上传7个主体,并根据提示词直接生成视频 [37] - 在Vidu全球创作者和企业用户整体调用量中,60%以上创作方式是参考生视频 [47] 技术能力具体参数 - Vidu当前能保证5秒、8秒片段一致性,视频延长功能可延长到5分钟,满足绝大部分单场景或多场景创作诉求 [40] - 全球AI视频厂商战队赛中,四名创作者利用Vidu参考生视频在2小时内现场创作出1分钟以上故事,获得赛事最高荣誉 [49] - 参考生视频已应用于广告、漫剧、文旅、动画影视等行业,在满足商业创作多主体一致性需求同时更好提效降本实现故事创意 [51]