Workflow
VideoVerse
icon
搜索文档
「世界理解」维度看AI视频生成:Veo3和Sora2水平如何?新基准来了
量子位· 2025-10-27 16:26
评测框架概述 - 提出名为VideoVerse的新评测框架,旨在系统评估文生视频模型在事件因果、物理规律与常识理解等“世界模型”核心能力上的表现[1] - 框架设计包含动态和静态两大视角,共十个评测维度,涵盖事件顺序与因果、力学、交互、材料特性、镜头控制、自然约束、常识、属性正确性、二维布局和三维深度[3] - 采用QA(二元问题)与LCS(最长公共子序列)的混合评分机制,综合评估模型在各维度上的表现[4][5] 评测流程构建 - Prompt构建采用多阶段流程,首先从日常生活、科学实验和科幻三大领域采样原始语料,以确保覆盖真实、受控和超现实场景[8][9] - 使用GPT-4o等大型语言模型自动从视频或文本中抽取事件序列与潜在因果链,将自然语言描述转换为结构化的事件因果链[10][11] - 由具备本科及以上学历的独立人工注释者对自动抽取的prompt进行语义增补,并为其选择适用的评测维度,结合自动化与人工知识保障标注质量[12][13][14] - 基于每条prompt的选定维度,自动或人工生成对应的二元检测问题,用于后续的视觉语言模型评测,并屏蔽原始prompt以降低文本幻觉风险[15] 评测方法与创新 - 评估分为三步:使用VLM提取生成视频的事件序列并通过LCS与真实序列比对评分;各维度下的二元问题独立询问VLM并计分;综合LCS得分与各维度答对问题数之和得出总体得分[16][17][18] - 创新性地引入“隐含语义”评测概念,不仅评估模型对prompt中显式描述内容的理解,还评估其对未明说但合理存在的语义前提的遵循能力,例如评估鸡蛋掉落地面后是否破碎、液体是否流动等隐含物理后果[19][20][21][22][23][24][25][26] 主要评测结果 - 评测结果显示,开源模型在基础维度(如属性、2D/3D布局)上与闭源模型表现接近,但在世界模型级别的能力(如自然约束、常识、事件因果)上与闭源模型存在明显差距[28] - 即便是当前最强的闭源模型Sora2,在“隐藏语义跟随”以及部分物理和材料推断任务上仍存在显著缺陷[29] - 具体模型表现方面,闭源模型如Veo-3和Sora2+在总体得分上领先,例如Veo-3总体得分为1292(总分1608),Sora2+为1299;而开源模型中Wan2.2-A14B总体得分1085,表现较好[30] - 案例分析发现,部分模型能生成正确的描述性内容,但在事件连贯性和常识理解方面表现不佳;还存在明显的反常识错误,例如生成的剃须动作中胡须未被刮掉,或干冰在室温下未呈现升华现象[31][33][34][36][37] 行业影响与未来方向 - VideoVerse框架的推出旨在推动文生视频模型行业从追求“生成逼真画面”向“理解并模拟世界”的根本性转变[40] - 团队已开源相关数据、评测代码并设立排行榜,以促进更多研究者基于该框架开发具备更强世界模型能力的新方法[41]