AI Video Generation
搜索文档
当Sora2遇上国产 Vidu Q2,国产参考生真的更香了!一手亲测
量子位· 2025-10-10 19:24
文章核心观点 - AI视频生成领域的竞争已从单纯技术效果转向满足实际应用需求,关键在于技术能否成为可靠的生产力工具[39][40][41] - Vidu Q2参考生视频与Sora 2在多个维度上表现接近,但各自优势不同,Vidu在操作灵活性和一致性方面表现突出,Sora 2在音视频同步输出方面有优势[37][38][9] - 行业未来的竞争焦点是构建包含创意、生成、编辑、分发与商业化的完整生态,而不仅是视频生成效果[42][43] Vidu Q2参考生视频功能特点 - 功能支持上传多达7张参考图,并让图片联动生成视频,提供专业模式及多种参数自定义选项,如时长(2-8秒)、清晰度(1080p)、宽高比和生成数量(1-4个)[7][8][9] - 该功能于去年9月全球首次提出,Vidu Q2是其参考生视频的第5个迭代版本,预计本月底将有重大更新[4][6][46] 技术能力对比:一致性 - 在一致性测试中,Vidu Q2生成的人物和道具(如包包)全程无异常变化,道具颜色与原图高度相符[12][13][14] - 同样的提示词下,Sora 2生成的内容在基本一致性上存在不足,道具(包包)颜色和形态(如包带数量)发生变化[16] 技术能力对比:遵循物理规律 - 在遵循物理规律的复杂场景测试(如镜面反射舞蹈动作)中,Vidu Q2整体表现良好,仅存在少量细节错误[21][22][23] - Sora 2在处理包含写实人物的图像时存在限制,替换为动漫人物后仍无法生成,改用文字提示生成的结果在人物数量和音乐搭配上完成度较高,但出现无关人员(摄影师)[25][26] 技术能力对比:运镜技巧 - 在运镜测试中,Vidu Q2的镜头语言更符合日常动漫风格,能够实现从近景到远景再到特写的流畅切换和跟随[31][32][33] - Sora 2通过不停切镜来渲染紧张氛围,与Vidu Q2的运镜方式各有优势[34][35] 行业发展趋势与竞争壁垒 - AI视频技术正朝着工业化生产方向发展,一致性等功能是实现AI短剧、数字人广告等商业应用的基础,具有战略价值[41][42] - 行业竞争壁垒在于构建完整生态,Vidu已基于产品矩阵构建了主体库共享生态、商业化生态和创作者生态[43] - 技术的快速迭代正推动技术成熟和成本降低,这场竞赛被视为AI视频生产力革命的开始[44][45]
谈「AI抖音」尚早,Sora 2们会先改变影视行业
钛媒体APP· 2025-10-04 09:12
Sora 2模型能力提升 - Sora 2视频模型带来对现实世界更精准的呈现、更强的可控性、能创造复杂音频并轻松将现实世界的人和物插入AI生成视频中[1] - Sora 2生成的内容更有真实感且能连续生成复杂镜头 其样片展示了维京战士乘战舰登陆冰面等复杂场景[8][15] - 模型能力提升推动整个视频大模型行业技术更新 使AI更好地服务于有创作冲动的人[2] 视频大模型商业化进展 - 商业化落地更多集中在B端和P端 快手可灵AI月度付费流水持续突破1亿元人民币[9] - 视频大模型厂商获得资本押注 Vidu完成由博华资本领投的数亿人民币A轮融资 爱诗科技拿到阿里巴巴领投的6000万美元B轮融资[10] - AI短剧商业化变现加速 《巨蛇怪谈》累计超500万次播放 珀乐互动联合Vidu创作的AI漫剧《明日周一》收获超1亿观看[2][11] AI视频创作效率提升 - AI“炼丹”效率显著提升 《明日周一》制作过程中炼丹效率达到1:1.3~1:1.5 团队期待提升至1:1.1或1:1.2[12] - 视频大模型基础能力进步使生成效果更自然 从难以生成自然吃面条画面到可生成汁水四溅的切橙子视频[15] - 参考生视频等功能上线优化创作流程 Vidu Q1支持用户上传七个主题 直接一键根据参考图直出视频 无需经过生图再生成视频环节[16] 影视行业工作流变革 - AI应用改变传统影视创作团队结构 《巨蛇怪谈》创作团队仅需导演、编剧和AI技术人员三人 传统剧组需要制片、摄影、灯光、美术等多分工[2][5] - AI技术减少中间环节和原画工作量 《明日周一》后半部分比原计划少画三分之一原画 分镜上色后直接生成视频跳过具体画面绘制环节[21] - 影视创作界面出现创新 可灵发布灵动画布功能支持一站式AI视频全链路创作和团队协作 Luma AI的Ray3被应用在Adobe的Firefly中[19][20] 行业竞争格局与产品演进 - 2024年国内出现20多款视频大模型产品 阿里、腾讯、字节及海外Google、Meta、Runway等巨头和创业公司加入战局[7] - 产品从工具属性向平台演进 Sora App被看作“AI抖音”雏形但本质仍是工具 与Higgsfield同类 利用AI提供高级滤镜激发跟风模仿[1] - Agent能力应用降低创作门槛 爱诗科技推出模版化Agent帮助用户撰写提示词 AIpai和FilmAction等产品支持从脚本到视频的一站式生成[23][24] 技术迭代与未来展望 - 2025年成为AI视频技术重要节点 可灵2.1、Google的Veo 3、字节的Seedance 1.0 pro等模型在生成效果上各有优势[8] - 技术需继续走向成熟 使AI生成人物有丰富表情并做出特定调度 同时需解决视频大模型版权问题[27][28] - 未来工具将同时适用于C端、P端和B端用户 带来工具层面普惠 但不会实现创作冲动大众化[29]
AI视频生成“暗战”起风
华尔街见闻· 2025-09-29 08:01
行业商业化进展 - AI视频生成赛道已实现用户付费,而大语言模型的同类模式尚未跑通[1] - 2024年6月,Runway年化营收超过9000万美元(约6.4亿元人民币)[1] - 2025年第二季度,快手旗下AI视频生成应用"可灵"创收超过2.5亿元人民币[1] - 生数科技的Vidu上线8个月年化经常性收入(ARR)突破2000万美元(约1.4亿元人民币)[9] - 爱诗科技的拍我订阅收入已经覆盖成本[9] 主要市场参与者 - 国内市场参与者包括字节、快手、百度等互联网大厂以及生数科技、爱诗科技等初创公司[4] - 生数科技的"Vidu"和爱诗科技的"拍我"用户数均已突破千万[2] - 群核科技计划年内发布针对C端消费者的AI视频生成产品,并拥有庞大的室内空间数据集优势[2][10] 技术能力突破 - 2024年2月,OpenAI的Sora 1.0支持生成长达60秒视频,实现突破性进展[3] - 当前国内AI视频生成模型一次生成时长基本在5秒-10秒,但可通过镜头组合形成连贯长视频[4] - 百度蒸汽机升级后支持生成无限长度AI视频,突破了5-10秒的局限[8] - 长视频生成技术引入自回归扩散模型,结合自回归长序列能力和扩散一致性强优势[8] 具体应用场景 - 影视行业是AI视频生成技术的第一批尝鲜者[5] - 50集动漫短剧《明日周一》80%内容由生数科技Vidu生成,10人团队45天完成制作,效率较传统一周制一集提升至少7倍[6] - 快手"可灵"客户群体涵盖大众创作者、电商及广告从业者和影视制作工作室[7] - 市场想象空间延伸至机器人训练等场景,可为机器人提供虚拟场景进行训练[11] - 快手计划扩大"可灵"在游戏制作、专业电影以及视觉制作中的应用[12] 产品定价策略 - 标准版定价差异较大:可灵66元、Vidu59元、拍我79元、即梦79元[9] - Vidu和即梦"加量不加价",分别可生成200个/月、216个/月视频,而可灵、拍我只能生成数十个[9] - 行业出现价格战,百度蒸汽机定价低至行业70%,可灵2.5 Turbo模型比2.1模型同档位便宜近30%[10] 技术挑战与优化 - AI视频生成模型存在空间一致性、内容拼接崩坏问题,实测中出现脸部表情崩坏、物体凭空消失等现象[13] - 核心难点在于模型对长时序运动轨迹与多尺度语义连贯性的精准建模[13] - 问题根源在于当前算法基于2D图像序列学习,未能真正理解3D空间关系和物理世界逻辑[14] - 生数科技通过自研U-ViT架构、构建大规模视频数据集、引入动态遮罩与一致性补偿算法进行优化[15] - 群核科技推进3D视频生成工作流研发,以降低穿模和畸变[15] 数据资源与隐私 - 高质量数据集是AI视频生成模型公司渴求的训练素材[16] - Meta因被指控下载2396部成人电影训练AI模型而面临诉讼[17] - 国内视频平台如快手、抖音在用户数据使用方面拥有更多弹性空间和优势[18] - 快手的隐私政策允许其为广告目的与第三方合作伙伴读取用户部分信息与数据[18]
阿里巴巴投出AI视频生成赛道最大单笔融资
新浪财经· 2025-09-16 16:10
融资情况 - 爱诗科技完成B轮融资 总金额超过6000万美元[1] - 由阿里巴巴领投 达晨财智、深创投、北京市AI基金、湖南电广传媒、巨人网络和Antler跟投[1] 行业地位 - 创下国内视频生成领域单次最大融资记录[1] 投资方构成 - 本轮融资参与方包括战略投资方阿里巴巴及多家财务投资机构[1]
科股早知道:AI算力需求井喷,算力产业链上市企业业绩频频报喜
搜狐财经· 2025-08-25 08:45
AI算力产业链 - AI算力需求井喷带动产业链上市公司2025年上半年业绩高增长 多家公司业绩增长得益于基础算力设施持续建设和人工智能算力投资稳步增长 [1] - 2028年中国智算中心市场规模预计达到2886亿元 市场增长动力由训练切换至推理 [1] - 2025年中国智能算力规模预计达到1037.3EFLOPS 2028年预计达到2781.9EFLOPS [1] - 国产大模型加速国产算力建设 AIDC运营商/AI服务器/交换机/光模块/高速铜缆/温控等环节迎来放量机会 [1] AI视频生成行业 - 可灵AI发布基于2.1模型的全新首尾帧功能 效果较1.6模型提升235% 在视频转场/视觉冲击力/复杂运镜及创意营销等维度表现较好 [2] - 自2024年2月OpenAI发布Sora以来 快手/字节跳动/腾讯/谷歌等企业相继推出AI视频生成模型 [2] - 生成式AI已初步在影视行业落地 包括动画短片和特效场景 具备复杂场景生成能力并实现分镜/物理规律/角色一致性 [2] - 生成式AI在剧本生成/角色场景建模/动画生成/后期配音/剪辑调色等环节均有应用 [2] - 2024年AI视频生成全球规模为6.15亿美元 预计2032年达到25.63亿美元 2025-2032年复合增速20% [2]
速递|Moonvalley发布首个公开数据训练的AI视频模型Marey:如何实现360度镜头控制与物理模拟
Z Potentials· 2025-07-09 13:56
公司技术 - Moonvalley推出"3D感知"混合模型Marey 通过结合文本提示与手动控制为电影制作人提供更强操控性 区别于标准文本转视频模型[1] - Marey基于公开授权数据训练 避免AI生成内容涉及版权材料的法律风险 针对规避诉讼的电影制作人群体[1] - 模型支持5秒片段生成 符合行业标准 提供14 99美元/100积分至149 99美元/1000积分的订阅服务[1] 产品功能 - 实现物理世界模拟能力 如遵守运动定律 可替换视频主体(野牛→凯迪拉克)并保持环境互动(草叶尘土响应)[3][4] - 支持自由镜头运动 通过鼠标拖拽实现平移滑动变焦 接近360度视角调整 模拟手持/轨道拍摄效果[5] - 具备背景替换功能 保留主体同时转换场景(郊区道路→乡村公路) 未来将新增光照调节/深度轨迹等控制[5] 应用案例 - 独立制片人Ángel Manuel Soto使用Marey降低20%-40%制作成本 解决传统设备租赁的高资金门槛[2] - 应用于影视全流程 包括拍摄前场景测试与后期镜头角度调整 控制物体/角色/动作/构图等要素[2] - 曾用于HBO纪录片《Menudo: Forever Young》制作 通过收购Asteria(XTR)工作室强化内容生产能力[2] 行业定位 - 直接对标Runway Gen-3/Luma Dream Machine等AI视频生成器 强调差异化控制能力[5] - 技术对标Google Veo 3和OpenAI Sora 共享物理世界理解能力 但更早开放商业化应用[3] - 创始团队含DeepMind前研究人员 具备谷歌视频模型开发经验 技术背景深厚[1]