Generalist Robot Manipulation
搜索文档
更全面的具身智能真机评测来了!CVPR 2026 ManipArena挑战赛邀你打榜
机器之心· 2026-03-18 15:39
行业核心痛点与解决方案 - 具身智能行业在爆发式增长后,面临如何科学评估模型真实泛化能力而非针对特定任务优化的核心拷问,统一的真机评测体系长期缺位,制约模型迭代效率并带来“劣币驱逐良币”的商业风险 [1] - 在规模化落地关键节点,建立可量化、可复现、高信度的真机评测标尺已成为行业共识 [2] - 为破解困局,中山大学、自变量机器人与MBZUAI等机构在CVPR 2026的Embodied AI Workshop上推出了官方竞赛ManipArena,旨在为行业树立规范公平的评测新标杆 [3][8] ManipArena评测平台概述 - ManipArena是目前规模最大的真机操作评测平台之一,提供20个真机任务(5个初赛,15个决赛)和10812条高质量遥操作轨迹,通过绿幕可控环境和分层OOD评估设计,构建了可精确诊断模型泛化能力的科学化评测框架 [5][8] - 平台采用Server-Side远程真机评测架构,参赛者无需拥有真实机器人硬件,仅需GPU服务器和HTTP推理端点即可参与,大幅降低了参与成本 [38] - 所有20个任务均统一采用自变量机器人(X Square Robot)的双臂系统进行评测,消除了硬件差异,确保性能差异纯粹反映策略能力 [38] - 平台为赛事设置了实质性奖金激励,初赛第1-3名奖励500美元,决赛冠军奖励5000美元及2台6轴机械臂 [43] 科学评测框架的核心创新 - **分层OOD评估**:每个任务进行10次测试并按难度分层(T1-T4测域内能力,T5-T8引入视觉偏移,T9-T10为语义OOD测试),能精准诊断模型泛化瓶颈并绘制完整的泛化衰减曲线 [10][11][12] - **绿幕可控环境**:在带固定光源的绿幕封闭工作站中进行评估,从物理源头上排除光线变化等视觉干扰,保证性能差异纯粹反映策略能力 [16] - **系统化多样性注入**:在纯净视觉环境中注入物理属性层(材质、颜色、尺寸)、空间布局层(位置、朝向)和语义推理组合层(物品序列、类别)三个层级的多样性参数,防止模型依靠频率偏差走捷径 [17][19][21] - **开放56维底层感知信号**:提供每帧56维的本体感觉数据,包括关节位置、末端位姿、夹爪状态、电机电流和关节速度,鼓励力敏感策略研究,补齐力觉控制拼图 [20][22][23] 任务设置与评估规则 - 20个真机任务全部以推理为核心,涵盖15个桌面任务和5个移动操作任务,无简单抓取测试 [25] - 桌面任务细分为10个执行推理任务(如亚厘米级精准插入、力控倒水、双臂协作)和5个语义推理任务(如识别分类耳机、按颜色序列按按钮) [32][34] - 移动操作任务(如收纳衣物、挂画)将评测范围延展到3×3米真实空间,平均执行时长约144秒,是桌面任务的4.3倍,对模型时序建模能力提出极大考验 [35] - 赛事制定“单一模型”规则,要求参赛者用一个统一模型应对所有20个任务,禁止针对单一任务训练专家模型,迫使研发重心回归打造真正具备通用能力的基础模型 [36] - 评分机制摒弃二元成功率,采用子任务部分得分制,每个任务10次测试(trial),每次满分10分,15个桌面任务总分为1500分,提供更丰富的诊断信号 [43][46][47] 初步评测结果与行业洞察 - 首批基准测试对比了代表VLA的π₀.₅模型和代表世界模型的DreamZero,在满分1500分中,π₀.₅-OneModel得640.5分,π₀.₅-Single得626.3分,DreamZero得500.3分,大量任务成功率为0%,显示评测体系极具挑战性 [48] - 评测揭示了两种技术路线的互补能力边界:多任务VLA模型具备更强精细操作能力但泛化脆弱,面对分布外物体易出现灾难性退化;世界模型展现出显著泛化鲁棒性但仅限于粗粒度操作,在精细任务上力不从心 [8] - 具体数据表明,在耳机分类任务中,仅改变耳机类型时模型平均得2.0分,但同时改变类型和颜色时,平均得分直接降为0分,显示复合型分布外测试会导致性能灾难性崩溃 [13][14] - 在眼镜放置任务中,模型表现显示物体形状相似度比语义类别归属更重要:与训练集形状相同的儿童眼镜得10.0分满分,形状相似的墨镜得8.5分,形状完全不同的护目镜得分急剧下降至5.0分 [15] - 进一步分析揭示,VLA模型存在程序性遗忘,而世界模型在空间泛化上优势明显(如在篮子位置移动测试中,DreamZero得分仅下降8%,而π₀.₅模型下降44%-57%),但存在精细操作瓶颈和单步推理耗时极长(比VLA慢50至70倍)的问题 [51] - 结论指出,未来的通用操作模型需要深度融合VLA(擅长精度控制和语义理解)和世界模型(在空间泛化和粗粒度规划上更胜一筹)两种范式的优势 [52] 平台价值与行业影响 - ManipArena不仅仅是一场竞赛,更是一个高标准的开放研发平台,其分层OOD评估体系、多元化场景设计及子任务部分得分机制具备天然的学术实验适配性,可作为日常研发的benchmark [52] - 平台鼓励参赛者基于真实评测结果验证新算法并发表学术论文,通过科研创新与产业验证双向赋能,加速具身智能产业向真实世界的大规模部署迈进 [40][52]