你的模型真的能打吗?操作任务的长尾场景评测来了
具身智能之心·2026-01-20 08:33

文章核心观点 - 上海交大等研究团队提出GM-100基准测试,旨在解决当前机器人学习领域数据集任务设计单一、评估标准不统一的问题,通过100项多样化、具挑战性的任务全面评估机器人智能体能力,并推动行业向任务多样化与复杂化发展 [1][4] 现有机器人数据集与评估的局限性 - 当前主流数据集如Open X-Embodiment整合了22种机器人、160,266项任务,Agibot收集了超过100万条轨迹,RoboCOIN为421项任务提供了18万余条演示数据,但任务设计多集中于“拾取并握持”等常见行为,缺乏对复杂和长尾任务的覆盖 [3] - 任务设计的单一化导致训练出的模型存在显著偏差,作为预训练模型时,在真实场景中的适用性受限 [3] - 多数研究在提出新方法时,仅在少数常见任务上测试,且缺乏统一标准,使得不同研究成果之间难以进行公平对比 [3] GM-100基准测试的设计理念与方法 - GM-100包含100项精心设计的任务,旨在涵盖各类交互场景与长尾行为,其设计基于对现有任务设计的系统性分析与扩展,并结合了人类-物体交互基元与物体功能特性的相关洞见 [1][4] - 任务设计不以真实世界任务的实用性为标准,而是将物理常识与底层操作知识作为生成与筛选任务的唯一准则,以避免人为偏差 [4] - 设计过程首先收集并分析现有研究(如Agibot、Open X-Embodiment)的任务,去重分类后,参考HAKE、PaStaNet、OCL等人类-物体交互研究的洞见,利用大型语言模型(如Qwen3)自动生成大量候选任务,再通过模型评分和五名人类专家筛选,最终确定高质量、可执行的任务 [9][10] GM-100的数据收集与实验设置 - 通过遥操作方式在GM-100任务上收集了一个中型数据集,包含超过13,000条轨迹 [11][13] - 数据收集在两款不同的机器人平台(Agilex Cobot Magic和Dobot Xtrainer)上进行,两款平台具有不同的运动学结构、双臂设计和主相机视角,以提供多样化数据 [14] - 对于每个任务,首先收集100条具有不同初始条件和设计扰动的轨迹,以确保多样性,随后再收集30条分布相似的轨迹用于评估过程中的测试用例对齐 [17] - 为验证任务的可行性和挑战性,在100个任务上对多个基线模型进行了评估,包括DP以及多个视觉-语言-动作模型,VLA类模型基于每个任务收集的100条轨迹进行微调 [18] GM-100的评估结果与特性 - 实验结果表明,GM-100的任务具备可执行性以及足够的挑战性,能够有效区分当前视觉-语言-动作模型的性能 [2][4] - 在Xtrainer平台的实际场景性能评估中,不同模型的平均成功率(SR)在1.6%至53.9%之间,部分成功率(PSR)在4.4%至32.1%之间,整体成功率较低,凸显了任务的固有挑战性 [20] - 评估采用了成功率、部分成功率和动作预测误差(均方误差和L1损失)等多个指标,以全面反映模型性能 [22]