Workflow
Subject-to-Video (S2V)生成
icon
搜索文档
500万视频数据集+全新评测框架!北大开源主体一致性视频生成领域新基建OpenS2V-Nexus,生成视频 「像」 又 「自然」
机器之心· 2025-07-08 17:41
核心观点 - Subject-to-Video(S2V)生成技术旨在通过自拍生成一致且自然的短视频,解决文本对齐与主体特征保留问题,对短视频、虚拟人、AI剪辑等领域有重大意义[1] - 北大团队推出开源套件OpenS2V-Nexus,包含全球首个S2V评测基准OpenS2V-Eval和500万条720P高质量数据集OpenS2V-5M,填补领域空白[3][4] - 当前S2V技术面临三大核心问题:泛化能力不足、复制粘贴现象、人物一致性差,OpenS2V-Nexus通过数据与评测体系针对性解决这些问题[11][12][13] OpenS2V-Eval评测基准 - 首创七大类别细粒度评测框架,覆盖单人脸、多人全身、多实体等场景,每个类别设计30个测试样本,全面评估模型泛化能力[18] - 提出NexusScore、NaturalScore、GmeScore三大指标,分别量化主体一致性、自然度、文本对齐能力,突破传统粗粒度评测局限[20] - 对比现有基准(如VBench、ConsisID-Bench),首次实现跨模型主体一致性的科学可比性,揭示闭源模型(如Kling1.6总分54.46%)显著优于开源模型(如VACE-14B总分52.87%)[17][26][27] OpenS2V-5M数据集 - 全球首个专为S2V设计的百万级数据集,包含540万720P高清图片-文本-视频三元组,平均时长6.6秒,总时长超1万小时,规模远超MSRVTT(10K样本)等传统文本生成视频数据集[21][25] - 采用跨视频关联分割+多视角合成技术,提升数据多样性与标注质量,针对性解决泛化不足问题,相比常规数据主体保真度提升30%以上[25] - 支持文本生成视频任务,分辨率达720P,覆盖真实与合成数据,为模型训练提供丰富素材[24] 模型评估结果 - 系统评测18个主流S2V模型(4个闭源+12个开源),闭源模型Kling1.6在开放域任务中总分54.46%领先,开源模型Phantom-14B以52.32%紧随其后[26] - 三大共性问题显著:泛化能力差(如Kling生成错误背景概率达40.1%)、复制粘贴现象(SkyReels-A2直接复制参考图像表情)、人物侧脸保真度不足(所有模型侧脸生成失败率超65%)[26][28] - 人类专属任务评测显示,闭源模型Hailuo总分74.52%最优,开源模型ConsisID以72.03%次之,验证人物生成领域技术差距[27] 技术突破 - Nexus Data创新数据构建方法,通过多模态大模型生成多视角表示,使模型学习内在知识而非训练捷径,主体一致性评分提升1.87%[25][29] - 评测指标与人工评估一致性达85%,证实NexusScore等指标能精准反映模型缺陷,推动技术迭代方向[29] - 开源生态建设完整,提供论文、项目、数据集、评测基准全链路资源,加速行业应用落地[10][11]