Workflow
机器人模仿学习
icon
搜索文档
机器人具身操作评估新范式来了,从此告别单一成功率指标
机器之心· 2026-01-31 12:10
机器人操作评估的现状与挑战 - 随着Vision-Action和Vision-Language-Action模型的爆发,机器人模仿学习取得了长足进步,但当前的评估体系面临严重的“信任危机”[4] - 现有评估范式主要依赖二元的“成功率”,这种简单指标掩盖了执行质量的模糊性和来源真实性的模糊性两个关键问题[4][5] - 执行质量模糊性体现在:同样是“成功”完成任务,动作僵硬、伴随剧烈抖动的“抖动成功”与行云流水的“平滑成功”无法被传统二元评价区分,导致潜在安全隐患被忽视[5] - 来源模糊性体现在:已有的展示视频中,难以判断动作是否由真正的自主策略生成,甚至难以分辨其是否由人类远程操作“冒充”[5] Eval-Actions评估基准 - 为填补评估空白,北大与中科院团队提出了首个面向评估完整性的Eval-Actions基准[8] - 该基准以标注密度最大化为设计目标,而非追求原始轨迹数据量最大化,其独特优势在于提供故障场景数据和混合轨迹数据源[9] - 基准包含约13k条轨迹数据,其中创新性地引入了约2.8k条失败数据,这对于模型学习错误恢复和鲁棒的失败检测至关重要[10] - 基准混合了人类遥操作数据与多种策略生成的轨迹,为验证“来源真实性”提供了数据基础[10] - 基准提供了专家评分、排序引导以及思维链三种层次的注释,支持从数值评分到逻辑推理的全方位评估[10] - 基准包含从单臂到双臂的150+任务,并提供细粒度的质量雷达图与思维链注释[12] AutoEval自动化评估架构 - 团队设计了AutoEval框架,旨在从“细粒度动作质量”和“来源真实性”两个维度重塑机器人操作的评估标准[4] - 框架未采用单一模型,而是针对不同评估维度,创新性地提出了AutoEval-S和AutoEval-P两种架构,分别解决“看不清细节”和“胡乱推理”的难题[14] - **AutoEval-S**:专为评分与排序设计,引入时空聚合策略,将高频的运动细节“压缩”进视觉Token中,最大化时间信息密度,并辅以运动学校准信号,利用速度和加速度方差等物理数据校准视觉评估,确保评分精准反映动作的平滑度与安全性[15][17] - **AutoEval-P**:专为思维链推理设计,引入组相对策略优化范式,通过强化学习和混合奖励函数,强制模型在生成评分的同时必须给出逻辑自洽的物理推理,有效消除了大模型的推理幻觉问题[16][19] 实验性能结果 - 在Eval-Actions Small子集上的实验表明,AutoEval框架在多项指标上全面超越了InternVL、QwenVL等通用大模型[21] - **来源辨别力**:AutoEval能够以99.6%的准确率区分视频是来自真实的策略生成还是人类遥操作,有效解决了“来源模糊性”问题[22][24] - **评分对齐度**:在细粒度质量评分上,AutoEval-S与人类专家的判断高度一致[23] - 在排序引导协议下,AutoEval-S的评分相关性达到0.84,来源预测准确率高达99.6%,远超未微调的InternVL3.5-4B和QwenVL3-4B等基线模型[24] - 在专家评分协议下,AutoEval-S的评分相关性达到0.81[24] - **跨构型泛化能力**:在未见过的Franka机器人数据上,AutoEval-S仍能达到0.75的评分相关性和90%的来源预测准确率,展现了强大的跨实体泛化潜力[27][29]
登上Science Robotic!一天学习1000个任务,内燃机的风还是吹到了机器人
具身智能之心· 2025-11-17 08:47
文章核心观点 - 帝国理工学院提出的Multi-Task Trajectory Transfer(MT3)技术通过“轨迹分解为对齐-交互两阶段 + 检索式泛化”的创新思路,解决了机器人模仿学习数据效率低下的核心难题 [1] - MT3仅需单条演示即可教会机器人完成单个任务,在不到24小时的人类演示时间内成功掌握1000种不同的日常操作任务,并能泛化到全新物体实例 [1] - 该方法打破了“越多数据越有效”的传统认知,为机器人从实验室走向实际应用提供了全新范式 [23] 当前机器人模仿学习的范式困境 - 当前主流方案陷入“数据效率困境”,单阶段行为克隆平均需175-250次演示/任务,复杂任务甚至需8000次,且泛化能力差 [3] - 传统分解式方法聚焦单任务学习,未系统探索多任务场景下的策略搭配,缺乏灵活的经验复用机制 [3] - 早期检索式方法检索仅用于训练阶段,无法在测试时适配新场景,且依赖单一模态匹配,检索精度有限 [3] MT3的核心设计原理 - 核心设计是将操作轨迹拆分为对齐与交互两阶段,通过语言-几何双模态检索复用历史演示 [4] - 对齐阶段解决“去哪里操作”的定位问题,通过姿态估计和运动规划实现,无需学习复杂路径生成逻辑 [6] - 交互阶段解决“怎么操作”的执行问题,通过直接重放检索到的历史演示轨迹完成精准物体操作 [7] - 采用双模态检索机制:语言过滤从任务描述中提取微技能筛选同类任务,几何匹配利用PointNet++编码器提取物体几何特征计算余弦相似度 [9] - 检索仅在任务开始前执行一次,找到的历史演示同时为对齐阶段提供定位参考、为交互阶段提供轨迹模板,实现跨阶段复用 [10] MT3的技术亮点与性能优势 - 数据效率取得突破,每个任务仅需1条演示即可完成学习 [11] - 泛化能力强劲,对于未见过的物体,通过几何匹配找到同类物体演示,在100个unseen任务上保持68%的成功率 [12] - 扩展效率极高,研究中仅用17小时采集演示就让机器人掌握了1000种任务,涵盖31类宏技能、402种不同物体 [13] - 在低数据场景下性能碾压传统方法,仅用3次演示/任务在seen任务上的成功率就超过其他方法用50次演示的表现 [16] - 整体性能表现优异,seen任务成功率78.25%,unseen任务成功率68%,在包含干扰物体、光照变化、物体随机摆放的复杂环境中仍保持稳定性能 [18] MT3的局限性 - 高精度对齐任务如硬币投入存钱罐插槽,对齐阶段的姿态估计误差无法通过开环交互弥补,成功率仅30%左右 [20] - 变形物体操作如将书插入背包,不同变形物体的动态特性无法通过视觉几何推断,轨迹重放易失败 [20] - 检索匹配失败场景如刷卡支付,物体关键特征过小时全局几何匹配无法识别,导致检索到不匹配的演示 [20] 关键结论与行业意义 - 轨迹分解是低数据学习的关键,将操作任务拆分为对齐-交互两阶段比单阶段学习数据效率提升一个数量级 [22] - 检索泛化比模型泛化更高效,在少量演示场景下直接复用历史经验比学习通用模型更可靠 [22] - 千任务学习无需复杂模型,为机器人规模化应用提供了低成本方案,对家庭服务、仓储物流等需要快速适配多种任务的场景极具落地价值 [22][23]