刚刚,全球视频模型新王诞生了!
量子位·2026-03-19 11:48

文章核心观点 - 天工AI的SkyReels-V4模型在Artificial Analysis文生视频(含音频)全球榜上超越谷歌Veo 3.1和OpenAI Sora 2等强劲对手,登顶榜首,ELO评分为1,129 [1][2] - 此次登顶不仅是排名提升,更标志着视频生成技术从“生成片段”迈向可控、连续的“完整视频生产”阶段,是能力的一次整体跃升 [3][29][30] - 公司不追逐短期热点,而是围绕“原生多模态”持续构建底层技术体系,并通过产品商业化(如短剧平台DramaWave)形成从技术到商业的正向循环 [61][67] 技术能力与模型升级 - 排名跃升与性能:SkyReels-V4在一个月内从全球第2升至第1,ELO评分达1,129,超越了Kling 3.0 Pro (1,097)、Veo 3.1 (1,081)和Sora 2 (1,079)等模型 [2][4] - 两大核心升级: - 全模态强化学习体系全面升级:通过搭建全模态语义Reward模型和采用阶梯式课程强化学习路径,使模型能理解视频整体逻辑,确保情节连贯合理 [6][10] - 新增关键帧参考与网格参考能力:提供对视频生成过程更强的控制力,关键帧参考允许用户提供多张图片控制剧情节奏,网格参考则用于锁定角色一致性和视觉风格 [6][18][26][27] - 技术架构与统一性:模型采用自研对称双流MMDiT架构,将音视频生成深度融合,并通过全模态参考将文本、图像、视频等所有输入形式统一处理,降低了工程复杂度 [41][42] 应用场景与商业化落地 - 短剧成为核心试验场:AI视频生成“高频、标准化”的特点与短剧生产需求高度契合,天工AI已将SkyReels-V4应用于其海外付费短剧平台DramaWave [44][45][51] - 商业化闭环已跑通:DramaWave平台于2024年10月上线,当前月活用户已突破8000万,验证了从技术到产品再到商业化的完整路径 [52][53] - 应用场景可扩展:统一的视频生成底座可复用至游戏过场动画、音乐视频等更广泛的内容生态,短剧仅是起点 [56][57] 公司战略与发展路径 - 坚持原生多模态长期主义:公司战略重心并非追逐“龙虾”等热点,而是持续构建图像、视频、音频协同的原生多模态底层能力 [59][61][69] - 技术产品化与生态构建:公司从文生图起步,逐步延伸至文生视频(SkyReels系列)和音频(Mureka音乐模型),搭建起完整的多模态AI体系 [62][63][68] - 形成自我强化循环:商业化收入反哺研发,用户行为数据回流驱动模型与生产流程迭代,构成了持续自我强化的正向商业与技术循环 [67]