BEAR基准
搜索文档
大模型在具身推理上「翻车」了?4496 道题全面揭示短板
机器之心· 2025-10-28 08:41
文章核心观点 - 行业提出BEAR基准以系统评估多模态大语言模型在具身智能领域的各项子能力 涵盖6大类14个细粒度技能 [4][8][9] - 行业测评发现当前多模态大模型在具身智能任务上整体表现不佳 最优模型GPT-5成功率仅为52% [11] - 行业基于错因分析开发了BEAR-Agent智能体 通过提供工具和辅助线显著提升模型在基准测试和仿真环境中的表现 [17][21] BEAR基准概述 - BEAR基准包含4,469个图片-视频-文字的VQA问题 旨在系统评估MLLM的具身智能子能力 [8] - 基准涵盖5个基础类别和1个长程推理类别 包括给点、给检测框、空间推理、任务规划等 共细分为14个技能 [8][9] - 该基准首次将具身智能任务切分为以技能划分的步骤 便于进行细粒度的错因分析 [9] 测评实验结果 - 行业全面测量了20个不同的MLLM 发现闭源模型通常优于开源模型 但部分开源模型如InternVL系列展现出潜力 其表现超过了GPT-4o和Claude等模型 [11] - 实验表明Chain-of-thought提示策略在闭源模型的给点和空间推理等子能力上起到一致的负面作用 过度推理会引入干扰 [13] - 在GPT-4o的错因分析中发现 模型视觉全能能力不足是多个类别的主要瓶颈 3D能力不足和长程推理中底层感知与空间推理的错误占比高达88% [15][19] BEAR-Agent性能提升 - BEAR-Agent可显著提升模型性能 使GPT-5在BEAR基准上的平均成功率从52.17%提升至61.29% [20] - 对于开源模型InternVL3-14B BEAR-Agent将其平均成功率从33.93%提升至36.24% [20] - 在桌面操作环境的仿真测试中 BEAR-Agent将MOKA的表现提升了20.17% 显示出其对具身智能体的实际应用潜力 [21]