机器人具身操作评估新范式来了,从此告别单一成功率指标
机器之心·2026-01-31 12:10

机器人操作评估的现状与挑战 - 随着Vision-Action和Vision-Language-Action模型的爆发,机器人模仿学习取得了长足进步,但当前的评估体系面临严重的“信任危机”[4] - 现有评估范式主要依赖二元的“成功率”,这种简单指标掩盖了执行质量的模糊性和来源真实性的模糊性两个关键问题[4][5] - 执行质量模糊性体现在:同样是“成功”完成任务,动作僵硬、伴随剧烈抖动的“抖动成功”与行云流水的“平滑成功”无法被传统二元评价区分,导致潜在安全隐患被忽视[5] - 来源模糊性体现在:已有的展示视频中,难以判断动作是否由真正的自主策略生成,甚至难以分辨其是否由人类远程操作“冒充”[5] Eval-Actions评估基准 - 为填补评估空白,北大与中科院团队提出了首个面向评估完整性的Eval-Actions基准[8] - 该基准以标注密度最大化为设计目标,而非追求原始轨迹数据量最大化,其独特优势在于提供故障场景数据和混合轨迹数据源[9] - 基准包含约13k条轨迹数据,其中创新性地引入了约2.8k条失败数据,这对于模型学习错误恢复和鲁棒的失败检测至关重要[10] - 基准混合了人类遥操作数据与多种策略生成的轨迹,为验证“来源真实性”提供了数据基础[10] - 基准提供了专家评分、排序引导以及思维链三种层次的注释,支持从数值评分到逻辑推理的全方位评估[10] - 基准包含从单臂到双臂的150+任务,并提供细粒度的质量雷达图与思维链注释[12] AutoEval自动化评估架构 - 团队设计了AutoEval框架,旨在从“细粒度动作质量”和“来源真实性”两个维度重塑机器人操作的评估标准[4] - 框架未采用单一模型,而是针对不同评估维度,创新性地提出了AutoEval-S和AutoEval-P两种架构,分别解决“看不清细节”和“胡乱推理”的难题[14] - AutoEval-S:专为评分与排序设计,引入时空聚合策略,将高频的运动细节“压缩”进视觉Token中,最大化时间信息密度,并辅以运动学校准信号,利用速度和加速度方差等物理数据校准视觉评估,确保评分精准反映动作的平滑度与安全性[15][17] - AutoEval-P:专为思维链推理设计,引入组相对策略优化范式,通过强化学习和混合奖励函数,强制模型在生成评分的同时必须给出逻辑自洽的物理推理,有效消除了大模型的推理幻觉问题[16][19] 实验性能结果 - 在Eval-Actions Small子集上的实验表明,AutoEval框架在多项指标上全面超越了InternVL、QwenVL等通用大模型[21] - 来源辨别力:AutoEval能够以99.6%的准确率区分视频是来自真实的策略生成还是人类遥操作,有效解决了“来源模糊性”问题[22][24] - 评分对齐度:在细粒度质量评分上,AutoEval-S与人类专家的判断高度一致[23] - 在排序引导协议下,AutoEval-S的评分相关性达到0.84,来源预测准确率高达99.6%,远超未微调的InternVL3.5-4B和QwenVL3-4B等基线模型[24] - 在专家评分协议下,AutoEval-S的评分相关性达到0.81[24] - 跨构型泛化能力:在未见过的Franka机器人数据上,AutoEval-S仍能达到0.75的评分相关性和90%的来源预测准确率,展现了强大的跨实体泛化潜力[27][29]