6款小游戏难倒所有顶级VLM!愤怒的小鸟让它们全军覆没,性能不如随机猜测
量子位·2025-11-16 12:45

文章核心观点 - 淘天集团未来生活实验室团队提出了首个系统性评估多模态大模型交互式物理推理能力的综合基准DeepPHY [1][5] - 该基准通过六个极具挑战性的物理模拟环境,揭示了即便是顶尖VLM在将物理知识转化为精确、可预测的交互控制时仍存在显著短板 [1][10] - 对17个主流VLM的评估表明,当前模型存在“说得到”却“做不到”的根本性缺陷,其物理知识是描述性的而非预测性和程序性的 [16][29] DeepPHY基准框架设计 - DeepPHY是首个专为评估VLM物理推理能力设计的综合基准框架,融合了六个不同的物理模拟器 [7] - 该基准旨在弥补现有环境(如游戏、GUI操作和具身AI)在物理模型上过于简化或侧重静态问答的局限性 [4][7] - 框架通过增强观测空间(如图像叠加网格或ID标签)和结构化动作空间(如离散化选择、JSON输出)来降低VLM的感知负担,使其更聚焦于物理推理评估 [14][15] 基准环境与挑战维度 - DeepPHY集成的六个环境全面覆盖从基础物理到复杂动力学的多个维度,包括PHYRE、I-PHYRE、Kinetix、Pooltool、Angry Birds和Cut the Rope [12][13] - 挑战维度涵盖基础物理(碰撞、重力、惯性)、复杂动力学(多体动力学、绳索张力)以及智能体行动与控制(决策视野、规划策略、控制复杂性)等 [13] - 各环境测试实例数量从34到1000不等,评估策略包括环境自动评估和人工评估 [13] 主流VLM性能评估结果 - 在多个环境中,大多数VLM的性能甚至无法超越随机执行动作的MOCK基线,总体性能与“随机猜”差距不大 [16][18] - 在Pooltool环境中,GPT-4o-mini取得了100%的成功率,但分析发现这是因其在所有交互中返回相同答案,而非真正利用了高级物理技巧进行策略规划 [22][23] - 在需要精细策略和时序控制的游戏(如Angry Birds和Cut the Rope)中,模型表现与人类差距悬殊,人类在Cut the Rope的成功率为41.36%,而最佳模型Claude 4.0 Opus仅为26.14% [23] VLM物理推理的核心短板 - 模型难以从失败的尝试中有效学习,即使给予多次机会,成功率提升缓慢,表明其无法构建准确的内部物理世界模型来指导决策 [21][22] - 在复杂任务中,额外的视觉标注可能成为“认知干扰”损害性能,揭示了模型处理复杂信息时的脆弱性 [22] - 实验发现,要求模型先预测物理结果再输出动作的WM模式,在绝大多数复杂任务中反而降低了成功率,表明模型的物理知识无法有效转化为可执行的控制信号 [24][26][28] - 定性案例分析显示,模型能用语言准确描述预期物理运动,但生成的动作指令却无法实现该描述,暴露了描述性知识与程序性知识之间的脱节 [28][29]