这个真人版《火影忍者》竟然是AI做的,来自中国AI视频新王者Vidu Q3
量子位·2026-01-30 19:02

生数科技Vidu Q3模型的核心能力 - 模型是全球首个支持一次性生成16秒音视频直出的AI视频生成模型 [2] - 模型在操作上具备“全自动”特性,支持中文、英文和日文等多种语言输入 [3] - 模型在权威AI基准测试机构Artificial Analysis的榜单中排名中国第一,全球第二 [5] - 模型的核心技术特点包括:音视频一次性生成、自由运镜和转场、支持文生和图生、生成清晰度支持1080P并可提升至4K、具备完整的叙事能力和精准的文字渲染 [6] Vidu Q3模型的具体功能与实测表现 - 图生视频功能允许用户上传首帧图片并输入提示词,可生成1至16秒的视频 [8][10] - 实测中,模型能根据单张图片和提示词生成如“主播连麦对话”等场景视频,效果逼真,并能自动识别场景补充细节(如弹幕) [11][12][13][14] - 模型能准确演绎不同情绪和场景的短剧,如愤怒的综艺导师点评、苦情的古装戏,并能自动补充风声、抽泣声等环境音效和动作音效 [16][17][18][19] - 模型具备在单段视频内完成一次性转场和换镜头的能力,并能自行补充符合场景的细节(如背景闪电、仰视角度) [20][21] - 文生音视频功能支持仅用自然语言生成视频,时长1-16秒,并提供16:9、9:16、1:1、4:3、3:4五种宽高比选择 [23][24] - 通过文生视频测试,模型能精准遵循复杂的分镜提示词,生成如3D皮克斯风格、国产修仙动漫等不同风格的连贯动画片段 [25][26][27] - 模型的文字渲染能力出色,能直接在画面中生成并渲染出如“Vidu”字样等复杂图形文字,利于一次性成片,减少后期加工 [29][30][31] AI视频生成行业的发展与趋势 - AI视频生成技术进化速度极快,从Sora引爆视觉震撼到业界实现有声视频直出,仅用了不到9个月,相较于电影史上从默片到有声电影用了32年,呈现历史性压缩 [34][35] - 行业竞争维度已从早期聚焦画面物理一致性、光影质感,升维至“音视频原生的多模态融合”,标志着AI从单纯生成画面进化到了理解声音与画面时序关联的“导戏”阶段 [36][37][38] - Vidu Q3的出现代表了技术能力的延伸,其16秒一镜到底的能力让AI具备了完整的短片叙事雏形,当音视频对齐和多语言表达不再困难时,行业的下一个突破点可能更快到来 [39][40] - 开年第一个月,国产AI视频生成领域的竞争非常激烈 [1]

这个真人版《火影忍者》竟然是AI做的,来自中国AI视频新王者Vidu Q3 - Reportify