CVPR2025视频生成统一评估架构，上交x斯坦福联合提出让MLLM像人类一样打分

视频生成技术评估框架Video-Bench 核心观点 - 视频生成技术革新视觉内容创作方式，高质量视频生成模型重要性凸显[1] - Video-Bench通过模拟人类认知过程建立文本指令与视觉内容的智能评估体系，显著优于现有方法[2][3] - 框架由上海交通大学、斯坦福大学等机构联合开发，采用双维度评估和两项核心技术实现突破[4][7][8] 技术架构创新 - 双维度评估框架：覆盖视频-条件对齐（对象/动作/颜色/场景一致性）和视频质量（成像/美学/时间/运动质量）[7][10] - 链式查询技术：通过多轮"描述-提问-验证"流程解决跨模态对齐难题，提升评估相关性9.3%[8][13][22] - 少样本评分技术：通过多视频对比量化美学评价，成像质量评估相关性从46.1%提升至62.4%[8][15][22] 性能优势 - 视频-条件对齐维度Spearman相关系数0.733，较CompBench显著领先[18] - 对象类别一致性达0.735相关性，较GRiT方法提升56.3%[19] - 评估者间一致性（Krippendorff's α）达0.52，与人类自评水平相当[21] - 抗干扰能力强：添加高斯噪声后评估误差<5%，评分一致性达87%[24] 主流模型测评结果 - 商业模型优势：Gen3综合得分4.38显著优于开源模型VideoCrafter2（3.87）[25] - 专项能力差异：CogVideoX视频-文本一致性领先，Gen3成像质量最优[25] - 共性短板：动作合理性平均仅2.53/3，动态模糊评分3.11/5[26] - 基础模型对比：GPT-4o在成像质量（0.807）和视频-文本一致性（0.750）表现突出，但版本更新可能引发性能波动[27] 技术实现细节 - 实验验证35,196个视频样本，组合技术使评估稳定性达67%（TARA@3）[22][23] - 框架对不同复杂度提示的评估稳定性优于基线方法32%[24] - 代码与论文已开源，便于行业应用验证[29]