继Seedance2.0后,又一中国视频生成大模型站到台前

公司产品发布与技术规格 - 昆仑万维旗下Skywork AI于2月27日正式发布多模态视频基础模型SkyReels V4,据称是全球首个同时支持多模态输入、联合音视频生成、统一生成、修复、编辑任务的视频基础模型 [1] - 该模型以双流多模态扩散Transformer为核心架构,实现了1080p分辨率、32 FPS帧率、15秒时长的音视频同步生成 [4] - 模型支持基于参考图片和参考运动进行主体替换/动作迁移、修改属性、更换背景、添删物体、修改局部纹理与属性等多种编辑功能 [4] - 在文本及音频生成方面,SkyReels V4支持包括中英日韩德法语等多个语种的文本合成,其中中文语音合成表现突出,多个指标达到行业领先水平 [4] 市场表现与竞争力 - 根据第三方评测机构Artificial Analysis的“文生视频(带音频)所有历史模型”排行榜,SkyReels V4位列第四名,已超过绝大多数明星产品 [1] - 在该榜单中,SkyReels V4 Preview的ELO评分为1,090分,95%置信区间为[-14, 14],样本量为2,397个 [2] - 其排名高于Kling 3.0 720p (Standard)、Vidu Q3 Pro、grok-imagine-video等知名模型,仅次于Google的Veo 3.1 Preview、KlingAI的Kling 3.0 1080p (Pro)和Google的Veo 3.1 Fast Preview [2] - 以官方参考图生成的15秒视频成品,镜头切换恰当,音画同步,整体效果已与目前短剧水平相当 [2] 核心技术突破与优势 - 针对音画不同步痛点,模型采用双流MMDiT架构,使视频和音频从任务开始就并肩工作,共享同一个文本理解模型,并通过双向跨注意力机制提高生成视频中角色嘴型、动作和声音的匹配度 [5] - 针对生成高清长视频算力消耗大、速度慢、成本高的问题,模型采用“低分辨率全序列 + 高分辨率关键帧”联合生成策略,先快速生成低分辨率完整视频和高分辨率关键帧,再通过专用超分辨率和帧插值模块重构高质量视频,从而用较少计算资源生成更高质量、更长时间的视频,显著降低用户制作门槛和成本 [8] - 针对用户剪辑需在多软件间切换的痛点,模型将生成、编辑、处理整合在统一框架内,提出通道拼接与时序拼接相结合的统一范式,减少用户对多工具的依赖,提升效率 [8] 行业挑战与风险 - 视频生成大模型领域的竞争已不仅限于技术,数据来源的合法性与合规成本正成为新的壁垒 [9] - 字节跳动发布的Seedance2.0曾因版权问题,遭到美国电影协会及六大好莱坞制片厂联合发出停止侵权函,随后其视频产出质量与稳定性出现大幅下降 [9] - 深度伪造技术可能被用于诈骗,且侵权行为追责困难,代价可能被忽略,演员王劲松已公开控诉其形象被用于AI生成视频 [9] - 创作平权与版权保护的矛盾激化,普通用户无意间使用包含IP的素材生成视频,将导致侵权行为变得更加普遍且难以追责 [9] - 对于中国AI企业而言,想要顺利进入并立足国际市场,所需要的远不止是算力和算法的领先 [10]