继Seedance2.0后，又一中国视频生成大模型站到台前

公司产品发布与技术规格 - 昆仑万维旗下Skywork AI于2月27日正式发布多模态视频基础模型SkyReels V4，据称是全球首个同时支持多模态输入、联合音视频生成、统一生成、修复、编辑任务的视频基础模型 [1] - 该模型以双流多模态扩散Transformer为核心架构，实现了1080p分辨率、32 FPS帧率、15秒时长的音视频同步生成 [4] - 模型支持基于参考图片和参考运动进行主体替换/动作迁移、修改属性、更换背景、添删物体、修改局部纹理与属性等多种编辑功能 [4] - 在文本及音频生成方面，SkyReels V4支持包括中英日韩德法语等多个语种的文本合成，其中中文语音合成表现突出，多个指标达到行业领先水平 [4] 市场表现与竞争力 - 根据第三方评测机构Artificial Analysis的“文生视频（带音频）所有历史模型”排行榜，SkyReels V4位列第四名，已超过绝大多数明星产品 [1] - 在该榜单中，SkyReels V4 Preview的ELO评分为1,090分，95%置信区间为[-14, 14]，样本量为2,397个 [2] - 其排名高于Kling 3.0 720p (Standard)、Vidu Q3 Pro、grok-imagine-video等知名模型，仅次于Google的Veo 3.1 Preview、KlingAI的Kling 3.0 1080p (Pro)和Google的Veo 3.1 Fast Preview [2] - 以官方参考图生成的15秒视频成品，镜头切换恰当，音画同步，整体效果已与目前短剧水平相当 [2] 核心技术突破与优势 - 针对音画不同步痛点，模型采用双流MMDiT架构，使视频和音频从任务开始就并肩工作，共享同一个文本理解模型，并通过双向跨注意力机制提高生成视频中角色嘴型、动作和声音的匹配度 [5] - 针对生成高清长视频算力消耗大、速度慢、成本高的问题，模型采用“低分辨率全序列 + 高分辨率关键帧”联合生成策略，先快速生成低分辨率完整视频和高分辨率关键帧，再通过专用超分辨率和帧插值模块重构高质量视频，从而用较少计算资源生成更高质量、更长时间的视频，显著降低用户制作门槛和成本 [8] - 针对用户剪辑需在多软件间切换的痛点，模型将生成、编辑、处理整合在统一框架内，提出通道拼接与时序拼接相结合的统一范式，减少用户对多工具的依赖，提升效率 [8] 行业挑战与风险 - 视频生成大模型领域的竞争已不仅限于技术，数据来源的合法性与合规成本正成为新的壁垒 [9] - 字节跳动发布的Seedance2.0曾因版权问题，遭到美国电影协会及六大好莱坞制片厂联合发出停止侵权函，随后其视频产出质量与稳定性出现大幅下降 [9] - 深度伪造技术可能被用于诈骗，且侵权行为追责困难，代价可能被忽略，演员王劲松已公开控诉其形象被用于AI生成视频 [9] - 创作平权与版权保护的矛盾激化，普通用户无意间使用包含IP的素材生成视频，将导致侵权行为变得更加普遍且难以追责 [9] - 对于中国AI企业而言，想要顺利进入并立足国际市场，所需要的远不止是算力和算法的领先 [10]