继Seedance2.0后，又一中国视频大模型站到台前

公司产品发布与技术定位 - 昆仑万维集团旗下Skywork AI于2月27日正式发布多模态视频基础模型SkyReels V4，该模型被描述为“全球首个同时支持多模态输入、联合音视频生成、统一生成/修复/编辑任务”的视频基础模型 [1] - 根据第三方评测机构Artificial Analysis的数据，SkyReels V4在“文生视频（带音频）的所有历史模型”排行榜中位列第四名，已超过绝大多数明星产品 [1] - 模型以双流多模态扩散 Transformer（MMDiT）为核心架构，实现了1080p分辨率、32 FPS帧率、15秒时长的音视频同步生成 [4] 产品性能与功能 - 模型支持基于参考图片和参考运动的主体替换/动作迁移、修改属性（如服装颜色、物体形状）、更换背景，添删物体、修改局部纹理与属性等功能 [4] - 在文本及音频生成方面，SkyReels V4支持包括中英日韩德法语等多个语种的文本合成，其中中文语音合成表现突出，多个指标达到行业领先水平 [4] - 官方演示的15秒生成视频，镜头切换恰当，音画同步，整体效果已与目前短剧水平相当 [2] 核心技术突破 - 针对音画不同步痛点，采用双流MMDiT架构，使视频和音频从任务开始就协同工作，共享同一个文本理解模型，并通过双向跨注意力机制提高角色嘴型、动作和声音的匹配度 [7] - 针对生成高清长视频算力消耗大、速度慢、成本高的问题，采用“低分辨率全序列 + 高分辨率关键帧”联合生成策略，先快速生成低分辨率完整视频和高分辨率关键帧，再通过专用模块重构高质量视频，从而降低用户制作高质量视频的门槛和成本 [9] - 针对多工具切换剪辑的痛点，将生成、编辑、处理整合在统一框架里，提出通道拼接与时序拼接相结合的统一范式，减少用户对多工具的依赖，提升效率 [9] 行业竞争格局与挑战 - 在Artificial Analysis的文生视频（带音频）排行榜中，SkyReels V4以ELO评分1,090位列第四，紧随谷歌Veo 3.1 Preview（1,181分）、KlingAI Kling 3.0 1080p (Pro)（1,094分）和谷歌Veo 3.1 Fast Preview（1,091分）之后 [2] - 大模型竞争已不仅限于技术，数据来源的合法性与合规成本成为新的壁垒，字节跳动Seedance2.0此前因版权问题遭美国电影协会及好莱坞制片厂联合维权，导致产品性能出现“降智”现象和产出稳定性下降 [10] - 行业普遍面临创作平权与版权保护的矛盾激化问题，普通用户无意间使用包含IP的素材进行生成，可能导致侵权行为变得普遍且难以追责 [10] - 对于中国AI企业而言，想要顺利进入并立足国际市场，所需要的远不止是算力和算法的领先 [11]