AI Video Generation

搜索文档
摩根士丹利:快手科技_人工智能视频生成热度攀升,Sedance 1.0 Pro 强劲首发为下一个驱动力
摩根· 2025-06-23 10:09
报告行业投资评级 - 快手科技股票评级为“Equal - weight”(等权重),行业观点为“Attractive”(有吸引力),目标价为60.00港元,较目标价的涨跌幅度为1% [6] 报告的核心观点 - 近期两款新模型发布改变了AI视频生成领域的竞争格局,字节跳动发布的Seedance 1.0 pro在文本到视频和图像到视频的人工分析排行榜上均排名第一,超越谷歌、快手和OpenAI的相关模型,且价格比同类产品低60 - 70%,生成速度相对较快;MiniMax发布的Hailuo 02在图像到视频排行榜上排名第二 [2] - 这证实了市场长期以来认为字节跳动将成为AI视频生成领域重要参与者的观点,新模型发布将加剧竞争,但目前难以判断谁是长期赢家 [3] - 建议关注快手Kling 2.2版本在技术性能和定价方面的未来迭代,Kling年初至今的强劲财务表现是快手股价的关键驱动因素,但在AI视频生成竞争稳定前,不宜对Kling估值给予过高评价,维持对快手的等权重评级 [3] 根据相关目录分别进行总结 新模型发布情况 - 6月11日,字节跳动在火山引擎动力大会上发布AI视频生成模型Seedance 1.0 pro,能生成1080P高清视频,多相机无缝切换,定价为每5秒视频3.67元,约40秒可生成5秒视频 [2] - 6月16日,MiniMax发布AI视频生成模型Hailuo 02 [2] 排行榜排名 - 文本到视频排行榜:Seedance 1.0排名第一,Arena ELO为1295;谷歌Veo 3 Preview (No Audio)排名第二,Arena ELO为1248;谷歌Veo 2排名第三,Arena ELO为1131;快手Kling 2.0排名第四,Arena ELO为1110;OpenAI Sora排名第五,Arena ELO为1047 [8] - 图像到视频排行榜:Seedance 1.0排名第一,Arena ELO为1351;MiniMax Hailuo 02 (0616)排名第二,Arena ELO为1331;谷歌Veo 3 Preview (No Audio)排名第三,Arena ELO为1241;快手Kling 2.0排名第四,Arena ELO为1194 [9] 快手科技财务数据 - 截至2025年6月17日收盘价为59.40港元,52周范围为68.90 - 37.55港元,稀释后流通股数为4354百万股,当前市值为2367.20亿元人民币,企业价值为2141.59亿元人民币,日均交易额为22.31亿港元 [6] - 预计2024 - 2027财年每股收益分别为4.02元、4.54元、5.00元、5.45元,净收入分别为1270亿元、1420亿元、1540亿元、1650亿元,EBITDA分别为200亿元、270亿元、320亿元、370亿元 [6] 估值方法 - 采用贴现现金流模型,关键假设包括12%的加权平均资本成本和2%的永续增长率,对Kling的估值采用全球顶级软件公司的25倍EV/S [10] 行业内其他公司评级 - 互联网及其他服务行业内,Autohome Inc等部分公司有不同的评级,如Autohome Inc评级为E(等权重),Full Truck Alliance Co. Ltd评级为O(超配)等 [67]
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
机器之心· 2025-05-07 15:37
AI视频生成技术发展 - AI视频生成技术进入快速爆发阶段,扩散模型展现出接近现实的生成效果,但速度瓶颈成为大规模应用的主要障碍 [1] - 当前主流视频生成模型(如Wan 2.1、HunyuanVideo)在单张H100 GPU上生成5秒720p视频需耗时30分钟以上,其中3D Full Attention模块占推理时间的80%以上 [1][6] Sparse VideoGen解决方案 - 加州伯克利和MIT研究者提出无需重新训练模型的加速方法Sparse VideoGen,通过挖掘注意力机制的空间与时间稀疏性,将推理时间减半 [2][4] - 该方法支持Wan 2.1、HunyuanVideo、CogVideoX等开源模型,适用于T2V和I2V任务,代码已开源并被ICML 2025收录 [4][8] 扩散式视频生成的性能瓶颈 - 基于Transformer的Video Diffusion Transformers(DiTs)在建模长时空依赖方面优势显著,但3D Full Attention带来巨大计算负担 [6] - Attention计算复杂度随分辨率和帧数呈二次增长,远高于普通图像生成模型 [6] Sparse VideoGen核心技术 - 识别Attention Map中的空间稀疏性(Spatial Head)和时间稀疏性(Temporal Head),分别负责局部空间一致性和跨帧时间一致性 [9][10][11][12] - 采用动态自适应稀疏策略,通过在线稀疏模式优化方法(Online Profiling)选择最优稀疏模式,仅需0.1%的Token采样即可实现精准预测 [15][16][17] 算子层优化 - 引入硬件友好的布局转换方法,将帧为主存储改为token为主存储,优化Temporal Head的内存访问模式 [20] - 定制化优化QK-Norm和RoPE模块,QK-Norm平均加速比达7.4倍,RoPE平均加速比达14.5倍 [21] 实验成果 - Sparse VideoGen在H100上使HunyuanVideo推理时间从30分钟降至15分钟,Wan 2.1从30分钟降至20分钟,PSNR稳定在29dB以上 [23] - 该方法展示视频生成模型可通过结构理解+自适应稀疏性实现性能突破,而非单纯扩大模型规模 [24]