AI Video Generation
搜索文档
Disney: AI Video Generation Will Supercharge IP-Rich Entertainment Giants
Seeking Alpha· 2025-10-09 00:02
作者背景 - 作者为全职价值投资者,擅长使用经典价值比率构建投资组合 [1] - 作者过往专业背景包括在家族办公室从事私人信贷和商业地产夹层融资 [1] - 作者能流利使用中文进行商务及法庭场景交流,并曾担任法庭口译员 [1] - 作者成年后大部分工作时间在中国及亚洲地区度过,曾与顶级商业地产开发商合作,包括The Witkoff Group、Kushner Companies、Durst Organization和Fortress Investment Group [1] 持仓披露 - 作者通过持股、期权或其他衍生品方式,对迪士尼和谷歌公司的股票持有有益的多头头寸 [2] - 文章内容代表作者个人观点,且作者未因撰写该文章获得除Seeking Alpha平台以外的任何补偿 [2] - 作者与文章提及的任何公司均无业务关系 [2]
AI视频生成“暗战”起风
华尔街见闻· 2025-09-29 08:01
行业商业化进展 - AI视频生成赛道已实现用户付费,而大语言模型的同类模式尚未跑通[1] - 2024年6月,Runway年化营收超过9000万美元(约6.4亿元人民币)[1] - 2025年第二季度,快手旗下AI视频生成应用"可灵"创收超过2.5亿元人民币[1] - 生数科技的Vidu上线8个月年化经常性收入(ARR)突破2000万美元(约1.4亿元人民币)[9] - 爱诗科技的拍我订阅收入已经覆盖成本[9] 主要市场参与者 - 国内市场参与者包括字节、快手、百度等互联网大厂以及生数科技、爱诗科技等初创公司[4] - 生数科技的"Vidu"和爱诗科技的"拍我"用户数均已突破千万[2] - 群核科技计划年内发布针对C端消费者的AI视频生成产品,并拥有庞大的室内空间数据集优势[2][10] 技术能力突破 - 2024年2月,OpenAI的Sora 1.0支持生成长达60秒视频,实现突破性进展[3] - 当前国内AI视频生成模型一次生成时长基本在5秒-10秒,但可通过镜头组合形成连贯长视频[4] - 百度蒸汽机升级后支持生成无限长度AI视频,突破了5-10秒的局限[8] - 长视频生成技术引入自回归扩散模型,结合自回归长序列能力和扩散一致性强优势[8] 具体应用场景 - 影视行业是AI视频生成技术的第一批尝鲜者[5] - 50集动漫短剧《明日周一》80%内容由生数科技Vidu生成,10人团队45天完成制作,效率较传统一周制一集提升至少7倍[6] - 快手"可灵"客户群体涵盖大众创作者、电商及广告从业者和影视制作工作室[7] - 市场想象空间延伸至机器人训练等场景,可为机器人提供虚拟场景进行训练[11] - 快手计划扩大"可灵"在游戏制作、专业电影以及视觉制作中的应用[12] 产品定价策略 - 标准版定价差异较大:可灵66元、Vidu59元、拍我79元、即梦79元[9] - Vidu和即梦"加量不加价",分别可生成200个/月、216个/月视频,而可灵、拍我只能生成数十个[9] - 行业出现价格战,百度蒸汽机定价低至行业70%,可灵2.5 Turbo模型比2.1模型同档位便宜近30%[10] 技术挑战与优化 - AI视频生成模型存在空间一致性、内容拼接崩坏问题,实测中出现脸部表情崩坏、物体凭空消失等现象[13] - 核心难点在于模型对长时序运动轨迹与多尺度语义连贯性的精准建模[13] - 问题根源在于当前算法基于2D图像序列学习,未能真正理解3D空间关系和物理世界逻辑[14] - 生数科技通过自研U-ViT架构、构建大规模视频数据集、引入动态遮罩与一致性补偿算法进行优化[15] - 群核科技推进3D视频生成工作流研发,以降低穿模和畸变[15] 数据资源与隐私 - 高质量数据集是AI视频生成模型公司渴求的训练素材[16] - Meta因被指控下载2396部成人电影训练AI模型而面临诉讼[17] - 国内视频平台如快手、抖音在用户数据使用方面拥有更多弹性空间和优势[18] - 快手的隐私政策允许其为广告目的与第三方合作伙伴读取用户部分信息与数据[18]
阿里巴巴投出AI视频生成赛道最大单笔融资
新浪财经· 2025-09-16 16:10
融资情况 - 爱诗科技完成B轮融资 总金额超过6000万美元[1] - 由阿里巴巴领投 达晨财智、深创投、北京市AI基金、湖南电广传媒、巨人网络和Antler跟投[1] 行业地位 - 创下国内视频生成领域单次最大融资记录[1] 投资方构成 - 本轮融资参与方包括战略投资方阿里巴巴及多家财务投资机构[1]
好莱坞特效师花300多块钱,用AI做了一部科幻短片
第一财经· 2025-08-21 20:57
AI视频生成技术发展 - AI视频生成技术取得显著进展 视觉效果可媲美实拍 如科幻短片《归途》中异形生物追击和巨型蜘蛛爬楼场景栩栩如生[1] - 技术实现重大突破 视频生成告别"默片"时代 实现多角色语音和环境音效一体化生成 百度蒸汽机模型实现多人有声视频一体化生成[4][5] - 当前技术存在明显局限 AI生成人类"AI味儿"浓 演技生硬 声画口型不同步 视频时长仅达5-10秒[4][5] AI视频生成成本效益 - 成本优势极其显著 传统实拍或CG制作需几百万元成本 复杂镜头单个成本达几十万至上百万元 而AI生成同等内容成本仅约330.6元人民币[3][4] - 成本结构呈现指数级增长特征 视频时长从10秒延长到20秒甚至100秒 成本可能增加100倍[6] - 百度采取价格竞争策略 打出"对标行业七折"价格标签冲击市场[6] 视频生成市场竞争格局 - 市场竞争激烈 参与者包括科技巨头和创业公司 快手可灵AI营业收入超过2.5亿元 字节、阿里、腾讯等巨头以及MiniMax、生数科技、爱诗科技等创业公司均布局该赛道[5] - 技术迭代快速 谷歌Veo3模型能生成环境音和人物对话 百度蒸汽机模型实现多人有声视频一体化生成[4][5] - 行业处于起始阶段 各厂商通过竞争互相启发技术上限[6] 商业化应用驱动因素 - 市场需求变化推动技术发展 2024年底短剧投流市场爆发 传统剪辑和AI生图无法满足创意需求 广告主直接提出科幻场景生成需求[4] - 百度转变战略布局 从最初不碰Sora类生成到因商业体系具体需求启动自研 项目代号"MuseSteamer"[4] - 当前主要用户包括内部业务部门、专业领域创作者和企业客户 上线50天最大用户来自百度内部包括搜索业务和移动生态创作者[5]
速递|Moonvalley发布首个公开数据训练的AI视频模型Marey:如何实现360度镜头控制与物理模拟
Z Potentials· 2025-07-09 13:56
公司技术 - Moonvalley推出"3D感知"混合模型Marey 通过结合文本提示与手动控制为电影制作人提供更强操控性 区别于标准文本转视频模型[1] - Marey基于公开授权数据训练 避免AI生成内容涉及版权材料的法律风险 针对规避诉讼的电影制作人群体[1] - 模型支持5秒片段生成 符合行业标准 提供14 99美元/100积分至149 99美元/1000积分的订阅服务[1] 产品功能 - 实现物理世界模拟能力 如遵守运动定律 可替换视频主体(野牛→凯迪拉克)并保持环境互动(草叶尘土响应)[3][4] - 支持自由镜头运动 通过鼠标拖拽实现平移滑动变焦 接近360度视角调整 模拟手持/轨道拍摄效果[5] - 具备背景替换功能 保留主体同时转换场景(郊区道路→乡村公路) 未来将新增光照调节/深度轨迹等控制[5] 应用案例 - 独立制片人Ángel Manuel Soto使用Marey降低20%-40%制作成本 解决传统设备租赁的高资金门槛[2] - 应用于影视全流程 包括拍摄前场景测试与后期镜头角度调整 控制物体/角色/动作/构图等要素[2] - 曾用于HBO纪录片《Menudo: Forever Young》制作 通过收购Asteria(XTR)工作室强化内容生产能力[2] 行业定位 - 直接对标Runway Gen-3/Luma Dream Machine等AI视频生成器 强调差异化控制能力[5] - 技术对标Google Veo 3和OpenAI Sora 共享物理世界理解能力 但更早开放商业化应用[3] - 创始团队含DeepMind前研究人员 具备谷歌视频模型开发经验 技术背景深厚[1]
摩根士丹利:快手科技_人工智能视频生成热度攀升,Sedance 1.0 Pro 强劲首发为下一个驱动力
摩根· 2025-06-23 10:09
报告行业投资评级 - 快手科技股票评级为“Equal - weight”(等权重),行业观点为“Attractive”(有吸引力),目标价为60.00港元,较目标价的涨跌幅度为1% [6] 报告的核心观点 - 近期两款新模型发布改变了AI视频生成领域的竞争格局,字节跳动发布的Seedance 1.0 pro在文本到视频和图像到视频的人工分析排行榜上均排名第一,超越谷歌、快手和OpenAI的相关模型,且价格比同类产品低60 - 70%,生成速度相对较快;MiniMax发布的Hailuo 02在图像到视频排行榜上排名第二 [2] - 这证实了市场长期以来认为字节跳动将成为AI视频生成领域重要参与者的观点,新模型发布将加剧竞争,但目前难以判断谁是长期赢家 [3] - 建议关注快手Kling 2.2版本在技术性能和定价方面的未来迭代,Kling年初至今的强劲财务表现是快手股价的关键驱动因素,但在AI视频生成竞争稳定前,不宜对Kling估值给予过高评价,维持对快手的等权重评级 [3] 根据相关目录分别进行总结 新模型发布情况 - 6月11日,字节跳动在火山引擎动力大会上发布AI视频生成模型Seedance 1.0 pro,能生成1080P高清视频,多相机无缝切换,定价为每5秒视频3.67元,约40秒可生成5秒视频 [2] - 6月16日,MiniMax发布AI视频生成模型Hailuo 02 [2] 排行榜排名 - 文本到视频排行榜:Seedance 1.0排名第一,Arena ELO为1295;谷歌Veo 3 Preview (No Audio)排名第二,Arena ELO为1248;谷歌Veo 2排名第三,Arena ELO为1131;快手Kling 2.0排名第四,Arena ELO为1110;OpenAI Sora排名第五,Arena ELO为1047 [8] - 图像到视频排行榜:Seedance 1.0排名第一,Arena ELO为1351;MiniMax Hailuo 02 (0616)排名第二,Arena ELO为1331;谷歌Veo 3 Preview (No Audio)排名第三,Arena ELO为1241;快手Kling 2.0排名第四,Arena ELO为1194 [9] 快手科技财务数据 - 截至2025年6月17日收盘价为59.40港元,52周范围为68.90 - 37.55港元,稀释后流通股数为4354百万股,当前市值为2367.20亿元人民币,企业价值为2141.59亿元人民币,日均交易额为22.31亿港元 [6] - 预计2024 - 2027财年每股收益分别为4.02元、4.54元、5.00元、5.45元,净收入分别为1270亿元、1420亿元、1540亿元、1650亿元,EBITDA分别为200亿元、270亿元、320亿元、370亿元 [6] 估值方法 - 采用贴现现金流模型,关键假设包括12%的加权平均资本成本和2%的永续增长率,对Kling的估值采用全球顶级软件公司的25倍EV/S [10] 行业内其他公司评级 - 互联网及其他服务行业内,Autohome Inc等部分公司有不同的评级,如Autohome Inc评级为E(等权重),Full Truck Alliance Co. Ltd评级为O(超配)等 [67]
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
机器之心· 2025-05-07 15:37
AI视频生成技术发展 - AI视频生成技术进入快速爆发阶段,扩散模型展现出接近现实的生成效果,但速度瓶颈成为大规模应用的主要障碍 [1] - 当前主流视频生成模型(如Wan 2.1、HunyuanVideo)在单张H100 GPU上生成5秒720p视频需耗时30分钟以上,其中3D Full Attention模块占推理时间的80%以上 [1][6] Sparse VideoGen解决方案 - 加州伯克利和MIT研究者提出无需重新训练模型的加速方法Sparse VideoGen,通过挖掘注意力机制的空间与时间稀疏性,将推理时间减半 [2][4] - 该方法支持Wan 2.1、HunyuanVideo、CogVideoX等开源模型,适用于T2V和I2V任务,代码已开源并被ICML 2025收录 [4][8] 扩散式视频生成的性能瓶颈 - 基于Transformer的Video Diffusion Transformers(DiTs)在建模长时空依赖方面优势显著,但3D Full Attention带来巨大计算负担 [6] - Attention计算复杂度随分辨率和帧数呈二次增长,远高于普通图像生成模型 [6] Sparse VideoGen核心技术 - 识别Attention Map中的空间稀疏性(Spatial Head)和时间稀疏性(Temporal Head),分别负责局部空间一致性和跨帧时间一致性 [9][10][11][12] - 采用动态自适应稀疏策略,通过在线稀疏模式优化方法(Online Profiling)选择最优稀疏模式,仅需0.1%的Token采样即可实现精准预测 [15][16][17] 算子层优化 - 引入硬件友好的布局转换方法,将帧为主存储改为token为主存储,优化Temporal Head的内存访问模式 [20] - 定制化优化QK-Norm和RoPE模块,QK-Norm平均加速比达7.4倍,RoPE平均加速比达14.5倍 [21] 实验成果 - Sparse VideoGen在H100上使HunyuanVideo推理时间从30分钟降至15分钟,Wan 2.1从30分钟降至20分钟,PSNR稳定在29dB以上 [23] - 该方法展示视频生成模型可通过结构理解+自适应稀疏性实现性能突破,而非单纯扩大模型规模 [24]