文章核心观点 - 香港大学与阿里巴巴达摩院联合提出了一种名为HiMaCon的新方法 旨在通过完全自监督的方式从多模态机器人演示数据中发现层级化的操作概念 以解决机器人策略在分布外场景泛化失败的根本问题[3][4] - 该方法的核心理念是 机器人要实现泛化 必须像人类一样先学习抽象的操作概念 再学习具体动作 而非传统端到端方法那样直接从像素和动作中学习容易过拟合的策略[4] - HiMaCon通过两大自监督机制——跨模态关联网络和多时域未来预测器——使机器人能够自动发现可跨物体、场景和视觉变化保持稳定的类人操作概念 并形成自然的层级结构[6][9][12] - 实验表明 将HiMaCon发现的概念作为表征增强模块集成到策略网络中 能显著提升机器人在模拟环境和真实场景中的任务成功率与泛化能力 特别是在训练中从未出现的复杂情况下表现突出[18][20][23][24] HiMaCon方法的技术原理 - 跨模态关联网络:通过随机遮挡部分模态(如RGB视觉、力反馈、听觉)并强制模型用剩余模态和概念表征重建全部模态 迫使概念编码捕获模态间稳定的物理依赖关系 而非易变的表面特征(如颜色、纹理)[9] - 多时域未来预测器:根据概念潜在向量的球面距离自动分割不同时域长度的任务子阶段 并训练网络预测每个子阶段的终止状态 使概念表征能编码多时域的进度信息 从而自然形成涵盖粗、中、细粒度的层级化任务结构[12][17] - 概念集成方式:HiMaCon作为概念表征增强模块 可直接作用于策略模型的中间特征 通过联合预测机制 策略网络在输出动作的同时也输出HiMaCon发现的概念表征 在学习动作时同步学习概念结构 无需修改策略整体架构[18] 实验验证与性能表现 - 模拟器实验:在LIBERO基准上进行三项评估 包括LIBERO-90(90个训练任务)、LIBERO-10(长时序组合任务)和LIBERO-GOAL(分布外环境任务) 所有操作概念仅从LIBERO-90的多模态演示中发现[19] - 模拟器结果:如表1所示 使用HiMaCon增强的ACT策略在LIBERO-90分布内任务上的成功率为74.8% 高于不使用概念的基线(46.6%)及其他概念学习方法 在长时序任务(LIBERO-10)上 增强后的Diffusion Policy成功率高达89.0% 显著优于基线的34.1% 在分布外任务(LIBERO-GOAL)上 ACT策略成功率也达到81.0% 优于基线的57.0%[21] - 真实机器人实验:在Mobile ALOHA平台上设计了六类难度递增的杯子收纳场景进行泛化性验证 包括新摆放位置、新颜色组合、全新物体、遮挡、障碍物、同时抓取两杯[22] - 真实场景结果:如表2所示 尽管概念编码器和策略仅在简单场景训练 HiMaCon增强策略在所有测试场景均显著提升性能 例如在“障碍物”场景 成功率从基线的0.0% 提升至20.0% 在“同时抓取两杯”场景 从0.0% 提升至13.3% 证明了所学概念对未见过复杂情况的强大泛化能力[23][24]
NeurIPS'25 | 港大×达摩院HiMaCon:泛化失败不在于策略学习不足,而在于缺乏"操作概念"
具身智能之心·2025-12-09 08:05