马斯克还在卷10秒,中国AI直接掀桌!16秒一镜到底,全球唯一
搜狐财经·2026-01-30 19:04

行业竞争格局 - 硅谷巨头在AI视频生成赛道竞争激烈,谷歌Veo 3.1凭借“素材生视频”功能、超强一致性和4K画质登场[2] - 马斯克的Grok Imagine已上线生成10秒视频功能,实现音画双飞跃[4] - Runway全新Gen 4.5模型同样致力于连贯叙事和高一致性,生成时长可达10秒[4] Vidu Q3核心产品发布 - 中国AI公司发布下一代旗舰模型Vidu Q3,定位为全球首个一键直出16秒音视频的模型[7] - 该模型能同时处理画面、声音、剧情推进和镜头调度,支持镜头控制与自由切换、多语言文字渲染以及专业级漫剧、短剧、电影制作[7] - 在Artificial Analysis最新榜单中,Vidu Q3位列中国第一、全球第二,超越了Runway Gen-4.5、谷歌Veo3.1和OpenAI Sora 2[7] 技术突破与关键能力 - Vidu Q3解决了AI视频生成领域时长过短(多为几秒)和缺乏声音(“哑剧”)的痛点[11] - 相比谷歌Veo 3最长支持8秒,OpenAI Sora 2最长支持15秒,Vidu Q3是业界唯一能做到单次生成16秒时长的模型,无需拼接或后期合成[11] - 模型实现了精准的镜头控制,允许用户像导演一样控制运镜节奏和视角切换,并能根据画面内容自动切镜[17][19][20] - 在文字渲染上实现质的飞跃,能够精准呈现中、英、日三种文字,解决了以往字母变形、笔画缺失等问题[23] 应用场景与行业影响 - Vidu Q3标志着AI视频从“演技生成”(让画面动起来)迈入“视听生成”新时代,交付完整的、声画共振的视听体验[8][23] - 对于影视行业,模型具备真正的“叙事密度”,能在16秒内构建完整戏剧冲突,处理复杂对白和情感递进,为从剧本到可视化提供极速通道[23] - 对于广告行业,模型在画面一致性和文字渲染上的突破,提供了一套“可控的商业化解决方案”[24] - 对于自媒体创作者,模型的音视频一体化生成彻底简化了高质量视频制作流程,将释放创造力并可能催生更多“超级个体”[26][28] 产品功能与体验 - Vidu Q3已上线文生音视频和图生音视频功能,用户可通过Vidu.cn或Vidu API平台体验[9][10] - 演示案例显示其能力包括:根据六格分镜图生成步骤视频、复刻电影经典瞬间并匹配口型与音色、生成具有胶片质感和精准对白的“对手戏”场景、以及创建包含复杂运镜和音效的动画打斗场景[13][15][21]