视频生成技术评估框架 - 视频生成技术正在快速革新视觉内容创作方式,高质量视频生成模型的重要性日益凸显[1] - Video-Bench框架通过模拟人类认知过程,建立文本指令与视觉内容的智能评估体系[2] - 该框架能精准识别物体一致性(0.735相关性)、动作合理性等维度缺陷,显著优于现有评估方法[3] 技术架构创新 - 构建视频-条件对齐和视频质量双维度评估框架,覆盖对象类别/动作/颜色/场景一致性等要素[7][10] - 引入链式查询技术:通过多轮"描述-提问-验证"流程解决跨模态对齐难题[8][13] - 采用少样本评分技术:通过多视频对比将主观美学评判转化为量化标准[8][15] 性能优势 - 视频-条件对齐维度Spearman相关系数达0.733,较CompBench提升56.3%[18][19] - 视频质量维度平均相关性0.620,领先EvalCrafter[18] - 评估者间一致性(Krippendorff's α)达0.52,与人类自评水平相当[21] 技术组件效果 - 链式查询使视频-条件对齐评估提升9.3%[22] - 少样本评分将成像质量评估相关性从46.1%提升至62.4%[22] - 组合使用时评估稳定性(TARA@3)达67%,Krippendorff's α达0.867[23] 模型测评结果 - 商业模型Gen3综合得分4.38显著优于开源模型VideoCrafter2(3.87)[25] - 当前模型在动作合理性(平均2.53/3)和动态模糊(3.11/5)等动态维度表现较弱[26] - GPT-4o在成像质量(0.807)和视频-文本一致性(0.750)方面表现突出[27] 研究团队 - 团队来自上海交通大学、斯坦福大学、卡内基梅隆大学等顶尖机构[4] - 核心成员包括多模态语言模型专家和LLM agent研究者[28] - 项目代码和论文已开源[29]
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位·2025-06-12 16:17