具身智能迎来ImageNet时刻:RoboChallenge开放首个大规模真机基准测试集
机器之心·2025-10-15 18:44

行业背景与平台定位 - 全球首个大规模、多任务、在真实物理环境中由真实机器人执行操作任务的基准测试平台[1] - 旨在解决机器人行业缺乏统一、开放、可复现基准测试方法的挑战,为视觉-语言-动作模型(VLAs)的实际应用提供可靠评估标准[4] - 平台由Dexmal原力灵机联合Hugging Face共同发起,通过云端服务突破硬件资源限制,实现“没有机器人,一样做实验”[1][14] 平台核心架构与机器人选型 - 集成多款主流机器人(UR5、Franka Panda、Aloha、ARX-5)实现远程评测,确保系统具备7×24小时持续运行能力[7][9] - 传感方案同步输出多视角RGB与对齐深度信息,未来计划集成力控或触觉传感器[9] - 采用无容器化服务架构与标准化API接口,用户无需提交Docker镜像即可直接调用,所有观测数据提供毫秒级时间戳[19] 基准测试方法与评估体系 - 创新性提出“视觉输入匹配”方法,通过调整物体位置使实时场景与参考图像完全吻合,确保每次测试初始状态一致[16] - 采用端到端任务成功率与过程评分相结合的评估机制,测试集所有任务均提供约1000条演示数据[11] - 突破传统二值化评估局限,采用进度评分系统,对复杂任务认可分步进展,对简单任务优化完成效率[23] 首套测试集Table30与模型表现 - Table30包含30个精心设计的日常情境任务,相比之下行业内真机评测任务数量一般仅为3-5个[18] - 测试结果显示最新发布的Pi0.5模型取得61.84分和42.67%成功率,显著优于其他模型但仍无法在所有任务上取得高成功率[22] - 任务设计涵盖四个关键维度:VLA解决方案难点、机器人类型、任务场景环境和目标物体属性,系统评估算法在多维度场景下的泛化能力[23] 社区建设与未来规划 - 向全球研究者免费提供评测服务,并公开所有任务演示数据及测试中间结果,确保研究的可复现性与透明度[27] - 未来计划引入移动机器人、灵巧操作装置等更多硬件平台,拓展跨场景任务测试能力[29] - 评测维度将从视觉-动作协调延伸至多模态感知、人机协作等方向,并计划推出动态环境适应、长期规划等更具挑战性的基准测试[29]