Workflow
以视觉为中心的推理
icon
搜索文档
多模态大模型理解物理工具吗?PhysToolBench提出了衡量多模态大模型对物理工具理解的基准
机器之心· 2025-11-04 16:52
研究背景与目标 - 多模态大模型在具身智能任务规划和动作执行方面潜力巨大,但其是否真正理解物理工具的运作原理缺乏统一量化评估[2] - 研究团队提出PhysToolBench基准,旨在系统衡量多模态大模型对物理工具的理解能力,该能力被划分为“认识”、“理解”、“创造”三个等级[2] - 该基准测试了32个最新的多模态大模型,涵盖闭源商用、开源、具身智能专用及VLA模型的VLM主干四大类别[3] 评估框架设计 - PhysToolBench以视觉问答形式构建,包含1000+图文配对数据集,文字部分为任务描述,图片代表机器人观察到的包含各种工具的环境[5] - 评估体系分为三个难度层级:Easy级要求模型识别工具及其主要功能;Medium级要求理解工具运作原理,并细分为工具属性、组合工具和工具可用性三个子类;Hard级则考验模型根据任务需求反推并创造工具的能力[7][8] 主要实验结果 - 在总体表现上,闭源商用模型领先,开源模型紧随其后,且模型规模与性能呈正相关[11][13] - 表现最佳的模型为GPT-5,总体得分仅为62.15%,在M3难度和Hard难度下得分普遍低于50%,与人类最佳表现(93.19%)和最差表现(87.85%)差距显著[11][13] - 专用于具身智能场景的模型(如Robobrain2、Embodied-R1)相较于其基础模型(如Qwen-2.5-VL)并未展现出领先优势,表明相关训练数据集中工具使用内容仍较欠缺[11][14] - 用于VLA模型中的VLM主干模型表现普遍不佳,总体得分大多低于20%,显示其物理工具理解能力不足以支撑更高阶复杂任务[11][16] 模型能力深度分析 - 模型对工具的识别与理解存在长尾效应,尤其对某些电子设备的识别与理解欠佳[18] - 模型对工具“是否可用”的理解极差,在设置工具损坏“陷阱”的M3难度中,多数模型未能识别,其总得分甚至低于Hard难度,揭示模型理解仅停留在死记硬背层面,存在安全隐患[18] - 思维链推理能带来性能提升,但在M3和Hard难度下,纯文本推理存在瓶颈,模型难以捕捉视觉模态中的关键信息[19][20] - 采用以视觉为中心的推理框架,通过目标识别等工具放大观察关键工具并进行额外推理,可显著提升M3难度准确率(例如GPT-5结合VCR后,M3得分从36.75%提升至54.81%),但整体水平仍不理想[19][20] 行业意义与方向 - PhysToolBench基准揭示了当前多模态大模型在物理工具理解方面的主要短板,为行业发展指明了方向[22] - 理解、运用和创造复杂物理工具的能力,是迈向通用智能体的关键步骤,也是下一代多模态大模型需要重点提升的能力[22]