硬刚马斯克,超越Sora2的国产模型强势登场了!支持16秒声画同出
搜狐财经·2026-01-30 22:40

行业地位与技术突破 - 生数科技的AI视频模型Vidu Q3 Pro登上国际权威AI基准平台Artificial Analysis榜单,位列中国第一,全球第二,是首个打入国际第一梯队的国产视频生成模型 [2] - 该模型在榜单上的ELO评分为1,241分,仅次于xAI的Grok(1,246分),领先于Runway Gen-4.5(1,235分)、Google Veo 3.1(1,225分)和OpenAI Sora 2 Pro(1,209分)[3] - 模型完成了三项关键突破,成为全球首个支持16秒音视频直出的模型,并实现了镜头自由切换控制与画面内精准文字渲染 [5] 核心功能与性能 - 模型支持最长16秒的音视频一体生成,语音、旁白、对话、音效和音乐可同步输出并精准对口型,已覆盖中文、英文、日文 [9] - 具备镜头调度能力,可根据内容自动切换镜头视角,从远景到特写,模拟专业导演的调度方式,让生成的故事更有视觉语言 [10] - 可直接在画面中生成中、英、日三种语言的文字内容,支持广告语、环境标识等多种文字场景自然融入画面,无需后期贴图 [11] 应用场景与市场潜力 - 模型能够还原复杂的情节表达,支持分镜与情绪变化,适合用于制作短剧、漫剧等叙事类内容 [16] - 在广告与产品展示场景中,其“语音+镜头”联动生成能力可显著提升创作效率,免去脚本-拍摄-剪辑的多轮反复 [17][18] - 在自媒体、播客等轻制作领域展现出较强实用性,支持风格与人物设定,搭配对白和动态镜头,可批量生产具备良好观看体验的内容 [19][20] - 目标用户不仅包括内容创作者,还扩展至广告人、营销人、产品人,正在重新定义创作角色 [21] 实测表现与行业意义 - 实测生成一段16秒国漫风格短片,结果显示节奏自然,镜头切换清晰,角色对白与口型匹配度较高,画面构图和氛围协调 [13] - 不同镜头间的切换能精准对应动作转换节点,背景音乐层次分明,冷兵器碰撞声与角色台词均有良好呈现,未出现跳帧、错位等问题 [13][14] - 用户可通过提示词对人物对白、画面风格、动作节奏等多维度进行控制,可控感明显提升,出片效率较高,画面渲染稳定 [14] - 这标志着AI视频生成能力完成了从“能动”到“会讲”的关键跨越,AI正从“摄像机”转向真正的“导演”,进入工业级内容生产新阶段 [21][24]

硬刚马斯克,超越Sora2的国产模型强势登场了!支持16秒声画同出 - Reportify