公司产品发布与技术定位 - 昆仑万维集团旗下Skywork AI于2月27日正式发布多模态视频基础模型SkyReels V4,该模型被描述为“全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务”的视频基础模型 [1] - 根据第三方评测机构Artificial Analysis的数据,SkyReels V4在“文生视频(带音频)的所有历史模型”排行榜中位列第四名,已超过绝大多数明星产品 [1] - 模型以双流多模态扩散 Transformer(MMDiT)为核心架构,实现了1080p分辨率、32 FPS帧率、15秒时长的音视频同步生成 [4] 产品性能与功能 - 模型支持基于参考图片和参考运动的主体替换/动作迁移、修改属性(如服装颜色、物体形状)、更换背景,添删物体、修改局部纹理与属性等功能 [4] - 在文本及音频生成方面,SkyReels V4支持包括中英日韩德法语等多个语种的文本合成,其中中文语音合成表现突出,多个指标达到行业领先水平 [4] - 官方演示的15秒生成视频,镜头切换恰当,音画同步,整体效果已与目前短剧水平相当 [2] 核心技术突破 - 针对音画不同步痛点,采用双流MMDiT架构,使视频和音频从任务开始就协同工作,共享同一个文本理解模型,并通过双向跨注意力机制提高角色嘴型、动作和声音的匹配度 [7] - 针对生成高清长视频算力消耗大、速度慢、成本高的问题,采用“低分辨率全序列 + 高分辨率关键帧”联合生成策略,先快速生成低分辨率完整视频和高分辨率关键帧,再通过专用模块重构高质量视频,从而降低用户制作高质量视频的门槛和成本 [9] - 针对多工具切换剪辑的痛点,将生成、编辑、处理整合在统一框架里,提出通道拼接与时序拼接相结合的统一范式,减少用户对多工具的依赖,提升效率 [9] 行业竞争格局与挑战 - 在Artificial Analysis的文生视频(带音频)排行榜中,SkyReels V4以ELO评分1,090位列第四,紧随谷歌Veo 3.1 Preview(1,181分)、KlingAI Kling 3.0 1080p (Pro)(1,094分)和谷歌Veo 3.1 Fast Preview(1,091分)之后 [2] - 大模型竞争已不仅限于技术,数据来源的合法性与合规成本成为新的壁垒,字节跳动Seedance2.0此前因版权问题遭美国电影协会及好莱坞制片厂联合维权,导致产品性能出现“降智”现象和产出稳定性下降 [10] - 行业普遍面临创作平权与版权保护的矛盾激化问题,普通用户无意间使用包含IP的素材进行生成,可能导致侵权行为变得普遍且难以追责 [10] - 对于中国AI企业而言,想要顺利进入并立足国际市场,所需要的远不止是算力和算法的领先 [11]
继Seedance2.0后,又一中国视频大模型站到台前