Workflow
全栈统一
icon
搜索文档
Artificial Analysis 榜单第二,SkyReels-V4 宣告 AI 视频进入「全栈统一」阶段
Founder Park· 2026-03-02 17:30
昆仑天工 SkyReels-V4 在权威评测中表现突出 - 在AI视频生成领域权威第三方评测平台Artificial Analysis最新的“文生视频榜单(带音频)”中,昆仑天工的SkyReels-V4 Preview模型排名第二,ELO评分为1090分,仅落后第一名快手Kling 3.0 Pro 3分 [1] - 在该榜单中,SkyReels-V4的排名超过了Google Veo 3.1 (ELO 1084)、OpenAI Sora 2 (ELO 1077) 以及xAI grok-imagine-video (ELO 1080) 等国际大厂模型 [1] - 在包含所有历史版本的全量模型排名中,SkyReels-V4同样位列第四 [3] - 该榜单评估的是包含画面、声音及两者同步程度的完整视频质量,而非仅看画面 [4] SkyReels-V4的核心能力与特点 强大的“运动参考”能力 - 模型能够将参考图像中角色的外观,精准迁移到另一段视频的动作骨架上,实现角色替换 [7] - 该能力不仅适用于人形替换,还能将人类舞蹈动作流畅映射到四足动物(如狼)身上,并保持动作重心转移和节拍卡点与原视频一致,表明模型理解了动作的语义 [10][11][12] - 模型能够同时跟踪并替换视频中的多个主体,例如将《低俗小说》中的两位舞者分别替换为狗和猫,且动作互不干扰 [14][16][17] - 该功能大幅提升了短视频创作中动作素材的复用率和商业价值,同一段动作可快速适配不同形象,用于广告、粉丝二创或节日版本 [18][19] 覆盖全视频工作流的“全栈能力” - 模型旨在覆盖从生成到编辑、从画面到声音的整条视频创作工作流 [20] - 在短剧生成方面,输入几张人物照片和一段对话剧本,模型能直接输出带对白、背景音乐及正反打镜头切换的短片片段,具备基础镜头语言 [21][25] - 生成的音频部分台词清晰、口型对齐,并能体现剧本指定的紧张、警惕等情绪,同时配有契合剧情的背景音乐 [26] - 模型原生支持生成中文、英文、法语、日语等多种语言的语音,便于同一套角色素材快速产出多语言版本,提升海外内容制作效率 [26] - 在视频编辑方面,模型能轻松完成去水印、抹掉硬字幕、清理台标等操作 [28][30] - 模型支持复杂的视频编辑,如为舞蹈视频中的C位舞者凭空添加一顶与参考图一致的帽子,或从多人视频中自然删除人物并补全背景 [31][32][33] - 该模型将过去需要多个软件协作的复杂工作流,简化到在一个模型内通过指令完成 [34] SkyReels-V4的关键技术架构 - 模型采用“统一拼接框架”,将各种视频任务(文生视频、图生视频、编辑等)转化为同一种操作:通过配置不同的“遮罩”来指定视频中需要保留和重新生成的区域,并将参考素材编码后拼入生成序列作为参考手册,从而实现一个模型处理多任务 [38][39] - 模型采用“双流 MMDiT”架构,视频和音频各有一条生成线,两者通过双向交叉注意力机制在每一步互相校准,实现音视频的底层同步生成,而非后期对齐 [40][42] - 为解决视频(每秒32帧)与音频(每秒44100采样点)信息密度差异大的难题,模型应用了RoPE频率缩放技术,将音频的时间坐标系压缩至与视频对齐,确保注意力计算时两者时间轴对应 [43] - 上述技术保障了多角色对话中唇形与语音的毫秒级精准对齐 [44] 行业趋势与潜在影响 - SkyReels-V4体现了AI行业向“统一”演进的大趋势,即模型从单项能力走向全流程覆盖 [45] - 对创作者而言,该模型将过去串联的工具链变为一个统一的“框”,降低了创作门槛并提升了创作连贯性 [45] - 对影视和内容制作行业,尤其是短剧、短视频、品牌内容等中腰部市场,模型能覆盖过去分属不同工种(特效、配音、音效、字幕等)的任务,可能重新定义“最低可行团队”,大幅提升产出效率并降低成本 [46] - 昆仑天工SkyReels系列的迭代路径清晰:V1主攻人物表演与影视级质感;V2实现无限时长生成;V3强化多模态参考驱动;V4则整合音视频联合生成与全场景统一编辑,每一步都在将更多能力纳入统一框架 [46] - 尽管统一架构的研发挑战巨大,但SkyReels-V4在权威评测中的成绩表明,这条“全能力统一”的技术路线已被验证可行 [47]