Workflow
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
量子位·2025-06-12 16:16

视频生成技术评估框架Video-Bench 核心观点 - 视频生成技术革新视觉内容创作方式,高质量视频生成模型重要性凸显[1] - Video-Bench通过模拟人类认知过程建立文本指令与视觉内容的智能评估体系,显著优于现有方法[2][3] - 框架由上海交通大学、斯坦福大学等机构联合开发,采用双维度评估和两项核心技术实现突破[4][7][8] 技术架构创新 - 双维度评估框架:覆盖视频-条件对齐(对象/动作/颜色/场景一致性)和视频质量(成像/美学/时间/运动质量)[7][10] - 链式查询技术:通过多轮"描述-提问-验证"流程解决跨模态对齐难题,提升评估相关性9.3%[8][13][22] - 少样本评分技术:通过多视频对比量化美学评价,成像质量评估相关性从46.1%提升至62.4%[8][15][22] 性能优势 - 视频-条件对齐维度Spearman相关系数0.733,较CompBench显著领先[18] - 对象类别一致性达0.735相关性,较GRiT方法提升56.3%[19] - 评估者间一致性(Krippendorff's α)达0.52,与人类自评水平相当[21] - 抗干扰能力强:添加高斯噪声后评估误差<5%,评分一致性达87%[24] 主流模型测评结果 - 商业模型优势:Gen3综合得分4.38显著优于开源模型VideoCrafter2(3.87)[25] - 专项能力差异:CogVideoX视频-文本一致性领先,Gen3成像质量最优[25] - 共性短板:动作合理性平均仅2.53/3,动态模糊评分3.11/5[26] - 基础模型对比:GPT-4o在成像质量(0.807)和视频-文本一致性(0.750)表现突出,但版本更新可能引发性能波动[27] 技术实现细节 - 实验验证35,196个视频样本,组合技术使评估稳定性达67%(TARA@3)[22][23] - 框架对不同复杂度提示的评估稳定性优于基线方法32%[24] - 代码与论文已开源,便于行业应用验证[29]