你的模型真的能打吗？上交发布了近百项场景的GM-100，操作任务的长尾场景评测来了

文章核心观点 - 现有机器人学习数据集和任务设计存在系统性缺陷，过于集中于少数常见任务（如“拾取并握持”），缺乏对复杂和长尾任务的覆盖，导致训练出的模型存在显著偏差，在真实场景中的适用性受限[2][3][5] - 为应对上述问题，上海交通大学等研究团队提出了GM-100基准测试，这是一个包含100项精心设计、多样化且具挑战性的任务集合，旨在全面评估机器人智能体能力，并推动数据集任务设计向多样化与复杂化方向发展[2][4] - GM-100基准测试的任务设计基于对人类-物体交互原语和物体功能特性的系统性分析，而非主观实用性标准，确保了任务的多样性和物理合理性[4][9] - 实验结果表明，GM-100的任务具备可执行性和足够的挑战性，能够有效区分当前主流视觉-语言-动作模型的性能[2][4] 提出的背景与问题 - 现有数据集概况：Open X-Embodiment整合了22种不同机器人的数据集，包含160，266项任务；Agibot收集了200余项任务及超过100万条轨迹；RoboCOIN为421项任务提供了18万余条演示数据[3] - 任务设计缺陷：去除重复项并按语义分类后，发现大多数任务集中于“拾取并握持”等极为常见的行为，缺乏对复杂任务与长尾任务的覆盖[3][5] - 评估标准问题：多数研究在提出新方法时，仅在少数常见任务上进行测试，且缺乏统一的任务设计标准，使得不同研究成果之间难以进行公平对比[3] GM-100的任务设计方法 - 设计原则：依据人类动作合理性设计机器人任务，旨在构建一组多样化的任务，涵盖广泛的交互场景，同时考虑动作的耦合性，并确保长尾、稀有但重要的动作得到体现[9] - 设计流程： 1. 基于以往研究选择基础交互动作，收集任务并去重分类[9] 2. 参考HAKE、PaStaNet、OCL等人类-物体交互研究的洞见，扩展和补充任务列表[9] 3. 利用大型语言模型（如Qwen3）基于精心设计的提示词自动生成大量候选任务[10] 4. 通过大型语言模型和五名人类专家对生成任务的机器人可执行性进行评分和筛选，获得高质量任务[10] - 任务筛选与构建：根据任务得分确定优先级，为高优先级任务设计具体交互细节并筛选物体，制定明确的任务完成评估标准，并录制人类完成任务的模板视频以指导数据收集[10] - 最终集合：考虑到工作量，选取100个任务组成GM-100基准测试集，作为该系列的首个版本[11] 数据收集与硬件平台 - 数据规模：通过遥操作方式在GM-100任务中收集了一个中型数据集，包含超过13，000条轨迹[11][13] - 硬件平台：采用两款机器人平台进行数据集收集和评估： - Agilex Cobot Magic：类Mobile-Aloha型机器人平台，采用前伸式手臂结构并配备头戴式相机[14] - Dobot Xtrainer：类Aloha型平台，采用内折式手臂结构并提供俯视相机视角[14] - 收集进展：当前版本中，在Cobot Magic平台上完成了全部100个任务的数据收集，在Xtrainer平台上完成了10个任务的数据收集[16] - 数据分布：对于每个任务，首先收集100条具有不同初始条件和设计扰动的轨迹，随后再收集30条分布相似的轨迹用于评估过程中的测试用例对齐[17] 实验评估与结果 - 基线模型：为验证任务的可行性和挑战性，在100个任务上对多个基线模型进行了评估，包括DP和多个视觉-语言-动作模型[18] - 评估指标： - 成功率：固定尝试次数内成功完成任务的百分比[22] - 部分成功率：任务中成功完成的子任务百分比[22] - 动作预测误差：预测动作与真实动作之间的均方误差和L1损失[22] - 性能结果： - 在Xtrainer平台的实际场景性能测试中，各模型的平均成功率在1.6%至24.9%之间，平均部分成功率在7.0%至53.9%之间，整体成功率较低，凸显了任务的挑战性[20][22] - 图4和图5展示了在Cobot Magic平台的部分成功率以及各模型在任务层面的归一化均方误差与部分成功率对比[24][26]