Physion-Eval发布 | 别被「更像真的视频」骗了，AI视频生成，可能还远未真正学会物理世界

文章核心观点 - 当前视频生成模型的评测过于关注“视觉真实”（清晰度、流畅度、观感），而忽略了“物理真实”，即视频内容是否符合现实世界的物理规律[4][5] - 行业提出了名为Physion-Eval的新评测基准，旨在系统性地评估生成视频的物理真实性，其核心结论是当前主流视频生成模型在物理一致性上存在严重缺陷，远未达到“物理一致”的水平[6][7][15] - 视频生成技术的下一阶段发展，不应仅追求画面观感的提升，而应更本质地解决物体持续性、接触关系、状态变化、时序一致性和因果结构等物理规律建模问题，这对于迈向世界模型、具身智能等高级应用至关重要[42] 当前视频生成评测的局限性 - 常见评测方式（自动指标或人工选择“哪个更好”）主要比较清晰度、流畅度和观感，难以识别视频中违反基本物理常识的问题[5] - 这些被忽略的物理问题包括：物体无故消失或出现、未接触物体发生交互、动作结果与过程对不上等，这些问题关系到模型是在生成画面还是在模拟可信世界[5] Physion-Eval评测基准介绍 - 该基准旨在评估AI生成视频在物理层面的真实性，而不仅仅是“好看”[6][7] - 覆盖第一人称和第三人称场景，包含10,990条专家推理轨迹，覆盖22类细粒度物理现象[9] - 每条样本标注详细，会标出错误发生的时间戳、错误类别及文字解释，而非简单打分[9] - 数据来源：第三人称部分来自WISA-80K，第一人称部分基于EPIC-KITCHENS构建[9] - 标注质量高：由90位具有STEM背景并接受过本科物理训练的专家进行标注，采用双人标注和资深专家裁决流程[9] 对当前视频生成模型的评估结果 - 在物理过程敏感的场景中，83.3% 的第三人称生成视频和 93.5% 的第一人称生成视频至少包含一个人类可明确识别的物理错误[16] - 错误是系统性的，典型问题包括：接触或交互失败、对象突然出现或消失、时间连贯性崩塌、因果顺序错乱、材料或状态变化异常、几何碰撞不合理等[17] - 具体模型表现（第三人称失败率）：Kling 2.5 (73.8%)、Veo3.1 Fast (79.4%)、Sora 2 (79.2%)、Hailuo 2.3 (93.1%)、Wan 2.2 (90.3%)，平均失败率为 83.3%[17] - 具体模型表现（第一人称失败率）：Kling 2.5 (96.4%)、Veo3.1 Fast (97.5%)、Sora 2 (96.6%)、Hailuo 2.3 (92.0%)、Wan 2.2 (83.5%)，平均失败率为 93.5%[17] - 许多错误并非渲染粗糙，而是看似合理却违背基本物理规律，如物体守恒、重力、不可穿透性和稳定接触等[19] 对多模态大模型作为“自动评委”的评估结果 - 当前最先进的多模态大模型（MLLM）在判断视频物理错误方面与人类存在明显差距，尚无法可靠替代人类评委[21] - 以Gemini 3.0 Pro为例，它会漏掉超过 74.4% 的第三人称错误视频和 90.1% 的第一人称错误视频[22] - MLLM不仅漏检率高，还经常将错误发生的时间说错，甚至编造不存在的原因[22] - 人类判断（即使是未受训练者）在识别物理错误方面目前仍是最可靠的标准[24][26] 物理过程的动态性与模型短板 - 分析表明，相比物理现象的强度大小，过程本身的动态性和复杂性更容易暴露视频生成模型的物理建模缺陷[35][36] - 对于MLLM评委而言，只有当错误足够明显时，它们才表现出有限的判断能力，但整体仍明显落后于人类[36] 对行业发展的启示 - 行业在追求视频“看起来真”的同时，必须重视其“实际上对不对”的根本问题，这对于开发世界模型、机器人、具身智能和仿真系统至关重要[42] - 视频生成的下一阶段应聚焦于解决物体持续性、接触关系、状态变化、时序一致性和因果结构等更本质的物理规律问题[42]