物理推理
搜索文档
6款小游戏难倒所有顶级VLM!愤怒的小鸟让它们全军覆没,性能不如随机猜测
量子位· 2025-11-16 12:45
文章核心观点 - 淘天集团未来生活实验室团队提出了首个系统性评估多模态大模型交互式物理推理能力的综合基准DeepPHY [1][5] - 该基准通过六个极具挑战性的物理模拟环境,揭示了即便是顶尖VLM在将物理知识转化为精确、可预测的交互控制时仍存在显著短板 [1][10] - 对17个主流VLM的评估表明,当前模型存在“说得到”却“做不到”的根本性缺陷,其物理知识是描述性的而非预测性和程序性的 [16][29] DeepPHY基准框架设计 - DeepPHY是首个专为评估VLM物理推理能力设计的综合基准框架,融合了六个不同的物理模拟器 [7] - 该基准旨在弥补现有环境(如游戏、GUI操作和具身AI)在物理模型上过于简化或侧重静态问答的局限性 [4][7] - 框架通过增强观测空间(如图像叠加网格或ID标签)和结构化动作空间(如离散化选择、JSON输出)来降低VLM的感知负担,使其更聚焦于物理推理评估 [14][15] 基准环境与挑战维度 - DeepPHY集成的六个环境全面覆盖从基础物理到复杂动力学的多个维度,包括PHYRE、I-PHYRE、Kinetix、Pooltool、Angry Birds和Cut the Rope [12][13] - 挑战维度涵盖基础物理(碰撞、重力、惯性)、复杂动力学(多体动力学、绳索张力)以及智能体行动与控制(决策视野、规划策略、控制复杂性)等 [13] - 各环境测试实例数量从34到1000不等,评估策略包括环境自动评估和人工评估 [13] 主流VLM性能评估结果 - 在多个环境中,大多数VLM的性能甚至无法超越随机执行动作的MOCK基线,总体性能与“随机猜”差距不大 [16][18] - 在Pooltool环境中,GPT-4o-mini取得了100%的成功率,但分析发现这是因其在所有交互中返回相同答案,而非真正利用了高级物理技巧进行策略规划 [22][23] - 在需要精细策略和时序控制的游戏(如Angry Birds和Cut the Rope)中,模型表现与人类差距悬殊,人类在Cut the Rope的成功率为41.36%,而最佳模型Claude 4.0 Opus仅为26.14% [23] VLM物理推理的核心短板 - 模型难以从失败的尝试中有效学习,即使给予多次机会,成功率提升缓慢,表明其无法构建准确的内部物理世界模型来指导决策 [21][22] - 在复杂任务中,额外的视觉标注可能成为“认知干扰”损害性能,揭示了模型处理复杂信息时的脆弱性 [22] - 实验发现,要求模型先预测物理结果再输出动作的WM模式,在绝大多数复杂任务中反而降低了成功率,表明模型的物理知识无法有效转化为可执行的控制信号 [24][26][28] - 定性案例分析显示,模型能用语言准确描述预期物理运动,但生成的动作指令却无法实现该描述,暴露了描述性知识与程序性知识之间的脱节 [28][29]
开源模型首次物理奥赛IPhO夺金!上海AI Lab 235B模型击败GPT-5和Grok-4
量子位· 2025-10-25 14:23
核心观点 - 上海AI Lab的P1-235B-A22B模型在国际物理奥林匹克竞赛中取得21.2分,成为首个在该赛事中获得金牌的开源模型[1][2] - 在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,P1-235B-A22B获得12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜第一,超越了GPT-5的11金以及Grok-4的10金[3][5] - 团队提出的协同进化多智能体系统PhysicsMinions,使P1-235B-A22B在HiPhO基准上的平均得分从35.9分提升至38.4分,在所有模型中取得综合第一,超越了Gemini-2.5-Pro的37.7分和GPT-5的37.4分[21] HiPhO基准测试 - HiPhO是首个专注于最新物理奥赛、采用人类对齐评估的基准,涵盖了2024-2025年最新的13场奥林匹克级别物理竞赛[7] - 评估采用官方评分标准,对答案和过程进行细粒度评分,确保模型得分可直接与人类选手及金银铜牌分数线进行比较[7] 模型训练方法 - 研究团队通过高质量的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集,每条数据均具有完整的上下文信息和标准解题过程[9] - P1系列模型采用多阶段强化学习流程,应用上下文窗口扩展和通过率过滤两项关键策略,实现了在基座语言模型基础上长期持续的性能提升[10][11][12] PhysicsMinions多智能体系统 - PhysicsMinions是一个专为物理推理设计的协同进化多智能体系统,由逻辑模块、审核模块和视觉模块三个交互式模块组成[13][14][15] - 系统通过自我验证与反思迭代实现物理推理能力跃升,审核模块执行物理验证器和通用验证器的双阶段验证,确保解答的物理一致性和逻辑正确性[13] 模型性能表现 - P1-235B-A22B在IPhO 2025上得分21.2/30,成为首个获得金牌的开源模型[20] - P1-30B-A3B在HiPhO基准上获得8金4银1铜,在现有开源模型中排名第三,超越了o4-mini和Claude-4-Sonnet等闭源模型[21] - P1-30B-A3B相比于基座模型Qwen3-30B-A3B-Thinking-2507,在数学、代码、STEM等基准测试上均取得显著优势,证明了物理推理能力的强大泛化性[22] 开源体系 - P1系列构建了包含模型、算法、评测集和智能体框架的全链路开源体系[6] - 项目提供了论文、数据集和排行榜等完整资源,支持行业进一步研究和应用[24]