Workflow
Vidu Q3
icon
搜索文档
大模型持续迭代 Vidu推出全球首个支持16秒音视频直出模型Q3
证券日报网· 2026-02-01 17:57
行业演进 - 人工智能视频行业正从“生成玩具”演进为真正的“内容生产力工具” [1] - 行业能力边界被持续推动前移,创作门槛持续降低 [1] - AI视频正成为“可直接使用的叙事内容单元”,进入内容生产的全链条 [1] 公司产品与市场地位 - 生数科技推出的Vidu Q3模型是全球首个支持16秒音视频直出的AI视频模型 [1] - 在Artificial Analysis的榜单中,Vidu Q3排名中国第一,全球第二,超越了Runway Gen-4.5、Google Veo3.1和OpenAI Sora 2 [1] - Vidu系列模型正领跑视频生成的下半场 [1] 技术突破与核心能力 - Vidu Q3首次在同一模型中实现了三项关键能力:时间长度跨过叙事阈值、声音与画面端到端直出、以及生成结果可直接用于商业分发 [2][3][5] - **时间长度**:16秒时长足以完成一次完整的情绪起承转合,表达因果关系与冲突,可作为独立叙事段落被直接使用 [2] - **音画同步**:音频不再是后期附加,而是画面节奏、对白、环境音与情绪同步生成,实现了剪辑节奏与叙事重点的内部对齐 [3][4] - **工业化突破**:通过16秒声画同出、多镜头自由切换、多语言对话三项核心能力,将传统后期流程系统性前置至生成端,实现“一镜到底” [5] 行业应用与影响 - Vidu Q3的“一镜到底”能力正深刻重塑高时效性内容产业的生产模式与成本结构 [6] - **短剧/漫剧行业**:创作模式从“堆人力”转向“提效率”,内容更新周期从“月更”压缩至“日更”,降低了高质量内容的量产门槛 [6] - **广告营销行业**:实现了营销素材与产品迭代、市场热点的实时同步,提升了品牌的营销敏捷性与创意测试效率 [6] - AI视频能够作为具备叙事闭环的内容单元进入实际生产环节,为短剧、漫剧、影视剧行业的AI应用按下快捷键 [6]
挪威主权财富基金2025年获利近2500亿美元;理想新设人形机器人和软件本体部门;Sora下载量暴跌45%丨邦早报
创业邦· 2026-01-31 09:12
AI视频与生成模型动态 - OpenAI旗下AI视频生成应用Sora移动端下载量1月环比暴跌45%,消费者支出环比下降32%至36.7万美元,自去年12月起已连续下滑,12月下载量环比下跌32% [1] - 生数科技发布全球首款支持16秒音视频直出的AI视频模型Vidu Q3,在国际评测机构Artificial Analysis榜单中以1241分位列中国第一、全球第二,超越Runway Gen-4.5、Google Veo3.1及OpenAI Sora 2 [11] - 月之暗面旗下Kimi K2.5模型上线3天后,在海外编程工具Kilo Code上调用量超越所有竞争对手成为最高,在OpenRouter平台调用量进入全球前三,仅次于Claude Sonnet 4.5和Gemini 3 Flash,其海外收入已超过国内,全球付费用户实现4倍增长 [8] 大模型与AI技术进展 - 蚂蚁灵波科技开源具身世界模型LingBot-VA,首次提出自回归视频-动作世界建模框架,将大规模视频生成模型能力与机器人控制融合 [17] - 谷歌旗下DeepMind公司在《自然》杂志发表封面文章,称其AlphaGenome深度学习模型能解码人类基因组中98%对健康至关重要的“暗基因组” [13] - 腾讯引进原新加坡Sea AI Lab高级研究科学家庞天宇,将入职混元多模态模型团队负责强化学习前沿算法探索 [6] - 小红书正在内测“语音问一问”功能,通过AI对分散的用户笔记经验进行一键总结,发力“真人经验+AI”问答场景 [17] 机器人技术与产业布局 - 理想汽车进行研发体系组织架构调整,新成立人形机器人团队和软件本体团队,多数自动驾驶部门员工划入新成立的基座模型团队 [1][3] - 宇树科技创始人王兴兴表示,谁能做出机器人用的大模型,谁就是全世界最厉害的AI公司和机器人公司 [3] - 德国机器人初创公司RobCo完成1亿美元C轮融资,用于推进其物理人工智能路线图并扩大企业部署规模 [10] - 马斯克被曝正考虑整合旗下资产推进太空算力布局,设想在太空部署AI数据中心,并探讨使用SpaceX星舰将特斯拉“擎天柱”机器人运送到月球和火星 [9] 芯片与算力领域 - 知情人士透露,英伟达拟向OpenAI投资至多1000亿美元的合作协议陷入停滞,因英伟达内部部分人士质疑该交易,双方目前正磋商数百亿美元的股权投资 [5] - 阿里旗下平头哥真武PPU芯片出货量已达数十万片,超过寒武纪,在国产GPU厂商中领先 [8] - 腾讯“元宝派”进入公测倒计时,新增功能疑似打通QQ音乐与腾讯视频内容库,支持免费享用会员内容 [11] 消费电子与智能硬件 - 苹果公司2026财年第一财季总营收创纪录达1437.56亿美元,同比增长16%,其中大中华区营收为255.26亿美元,同比增长38% [8][9] - 苹果公司计划优先推进2026年三款高端iPhone机型的生产,包括折叠屏iPhone及两款配备高端摄像头和更大显示屏的非折叠机型,标准版iPhone 18将推迟至2027年上半年上市 [8] - TrendForce集邦咨询预估,受Meta Ray-Ban Display智能眼镜零部件订单两度上修推动,2026年全球AR眼镜出货量将跃升至95万台,年增率达53% [18] - Omdia研究显示,2025年全球智能手机出货量增长2%达12.5亿部,为2021年以来最高水平,其中苹果iPhone出货量同比增长7%至2.406亿部,连续第三年保持全球最大智能手机厂商地位 [18] 新能源汽车与电池技术 - 宁德时代钠电品牌“钠新”即将在乘用车领域展开公开冬测,参与测试车型包括长安欧尚等,后续广汽、江淮旗下乘用车车型也会跟进 [8] - 长城汽车将魏牌调整至品牌公司并更名为魏品牌,组织内按车型设置作战单元,销售渠道将采用直营、代理并行模式 [9] - 一汽奥迪推出A5L燃擎星驰版新车型,售价28.58万元,“心动入手价”26.78万元,采用奥迪最新的E³ 1.2电子电气架构和第五代EA888发动机 [15] 企业融资与收购 - 苹果公司完成对以色列AI音频技术初创公司Q.ai的收购,斥资近20亿美元,这是苹果自2014年以30亿美元收购Beats后的第二大收购案 [10] - AI-Native用户研究平台Trooly.AI完成近千万美元种子轮融资,由蓝驰创投领投 [11] - FoloToy连续完成数千万元Pre-A轮、Pre-A+轮融资,由深创投、南山战新投投资 [10] 企业战略与人事变动 - 迪士尼首席执行官鲍勃·艾格计划在其合同于12月31日到期之前提前卸任,迪士尼董事会正处于挑选继任者的最后阶段 [9] - OpenAI计划在第四季度进行IPO,已与银行就潜在上市事宜举行非正式磋商,并聘请新高管以助筹备 [10]
马斯克还在卷10秒,中国AI直接掀桌!16秒一镜到底,全球唯一
搜狐财经· 2026-01-30 19:04
行业竞争格局 - 硅谷巨头在AI视频生成赛道竞争激烈,谷歌Veo 3.1凭借“素材生视频”功能、超强一致性和4K画质登场[2] - 马斯克的Grok Imagine已上线生成10秒视频功能,实现音画双飞跃[4] - Runway全新Gen 4.5模型同样致力于连贯叙事和高一致性,生成时长可达10秒[4] Vidu Q3核心产品发布 - 中国AI公司发布下一代旗舰模型Vidu Q3,定位为全球首个一键直出16秒音视频的模型[7] - 该模型能同时处理画面、声音、剧情推进和镜头调度,支持镜头控制与自由切换、多语言文字渲染以及专业级漫剧、短剧、电影制作[7] - 在Artificial Analysis最新榜单中,Vidu Q3位列中国第一、全球第二,超越了Runway Gen-4.5、谷歌Veo3.1和OpenAI Sora 2[7] 技术突破与关键能力 - Vidu Q3解决了AI视频生成领域时长过短(多为几秒)和缺乏声音(“哑剧”)的痛点[11] - 相比谷歌Veo 3最长支持8秒,OpenAI Sora 2最长支持15秒,Vidu Q3是业界唯一能做到单次生成16秒时长的模型,无需拼接或后期合成[11] - 模型实现了精准的镜头控制,允许用户像导演一样控制运镜节奏和视角切换,并能根据画面内容自动切镜[17][19][20] - 在文字渲染上实现质的飞跃,能够精准呈现中、英、日三种文字,解决了以往字母变形、笔画缺失等问题[23] 应用场景与行业影响 - Vidu Q3标志着AI视频从“演技生成”(让画面动起来)迈入“视听生成”新时代,交付完整的、声画共振的视听体验[8][23] - 对于影视行业,模型具备真正的“叙事密度”,能在16秒内构建完整戏剧冲突,处理复杂对白和情感递进,为从剧本到可视化提供极速通道[23] - 对于广告行业,模型在画面一致性和文字渲染上的突破,提供了一套“可控的商业化解决方案”[24] - 对于自媒体创作者,模型的音视频一体化生成彻底简化了高质量视频制作流程,将释放创造力并可能催生更多“超级个体”[26][28] 产品功能与体验 - Vidu Q3已上线文生音视频和图生音视频功能,用户可通过Vidu.cn或Vidu API平台体验[9][10] - 演示案例显示其能力包括:根据六格分镜图生成步骤视频、复刻电影经典瞬间并匹配口型与音色、生成具有胶片质感和精准对白的“对手戏”场景、以及创建包含复杂运镜和音效的动画打斗场景[13][15][21]
这个真人版《火影忍者》竟然是AI做的,来自中国AI视频新王者Vidu Q3
量子位· 2026-01-30 19:02
生数科技Vidu Q3模型的核心能力 - 模型是全球首个支持一次性生成16秒音视频直出的AI视频生成模型 [2] - 模型在操作上具备“全自动”特性,支持中文、英文和日文等多种语言输入 [3] - 模型在权威AI基准测试机构Artificial Analysis的榜单中排名中国第一,全球第二 [5] - 模型的核心技术特点包括:音视频一次性生成、自由运镜和转场、支持文生和图生、生成清晰度支持1080P并可提升至4K、具备完整的叙事能力和精准的文字渲染 [6] Vidu Q3模型的具体功能与实测表现 - 图生视频功能允许用户上传首帧图片并输入提示词,可生成1至16秒的视频 [8][10] - 实测中,模型能根据单张图片和提示词生成如“主播连麦对话”等场景视频,效果逼真,并能自动识别场景补充细节(如弹幕) [11][12][13][14] - 模型能准确演绎不同情绪和场景的短剧,如愤怒的综艺导师点评、苦情的古装戏,并能自动补充风声、抽泣声等环境音效和动作音效 [16][17][18][19] - 模型具备在单段视频内完成一次性转场和换镜头的能力,并能自行补充符合场景的细节(如背景闪电、仰视角度) [20][21] - 文生音视频功能支持仅用自然语言生成视频,时长1-16秒,并提供16:9、9:16、1:1、4:3、3:4五种宽高比选择 [23][24] - 通过文生视频测试,模型能精准遵循复杂的分镜提示词,生成如3D皮克斯风格、国产修仙动漫等不同风格的连贯动画片段 [25][26][27] - 模型的文字渲染能力出色,能直接在画面中生成并渲染出如“Vidu”字样等复杂图形文字,利于一次性成片,减少后期加工 [29][30][31] AI视频生成行业的发展与趋势 - AI视频生成技术进化速度极快,从Sora引爆视觉震撼到业界实现有声视频直出,仅用了不到9个月,相较于电影史上从默片到有声电影用了32年,呈现历史性压缩 [34][35] - 行业竞争维度已从早期聚焦画面物理一致性、光影质感,升维至“音视频原生的多模态融合”,标志着AI从单纯生成画面进化到了理解声音与画面时序关联的“导戏”阶段 [36][37][38] - Vidu Q3的出现代表了技术能力的延伸,其16秒一镜到底的能力让AI具备了完整的短片叙事雏形,当音视频对齐和多语言表达不再困难时,行业的下一个突破点可能更快到来 [39][40] - 开年第一个月,国产AI视频生成领域的竞争非常激烈 [1]