文章核心观点 - 亚利桑那州立大学等团队提出的分层RL-MPC框架,通过引入“接触意图”接口,将高层几何与运动学推理和低层接触动力学执行解耦,成功解决了机器人灵巧操作中数据需求大、虚实迁移难、泛化能力弱的三重挑战,在实验中实现了近100%任务成功率、高达40倍的数据效率提升以及零样本虚实迁移 [2][37] 传统灵巧操作方案的困境 - 端到端视觉运动策略:需要海量数据学习非光滑接触动力学,长时域任务效率极低;过度依赖模拟动力学模型,虚实迁移差距大;跨物体几何、跨场景泛化能力弱 [3] - 传统模型控制方案:基于固定运动原语或接触模式规划,扩展性差,难以适配开放环境中多样物体形状;缺乏灵活决策机制,面对扰动易失效 [3] - 简单分层策略:层级间耦合松散,未形成闭环优化;未明确几何-运动学与动力学的推理边界,导致决策与执行脱节 [3] 分层RL-MPC框架的核心创新:接触意图 - 定义与作用:接触意图是高层RL的输出和低层MPC的输入,定义为 (C, T_sub),其中 C 是物体表面的接触位置集合,T_sub 是接触后的物体子目标姿态,它将抽象操作决策转化为结构化信息,使RL无需处理复杂接触力计算,MPC无需猜测高层意图 [6] - 接触位置选择:C 中的位置从物体点云下采样的关键点中筛选,确保与物体几何形状精准适配 [6] - 子目标设计:T_sub 是朝向最终目标的关键中间态,这种分步设计大幅降低了长时域任务的学习难度 [6] 高层RL策略的设计 - 观测空间设计:采用“几何+目标+碰撞”三组件设计,所有信息基于物体坐标系构建 [7] - 几何组件:从物体点云均匀下采样N个关键点,既近似物体几何,又作为接触位置的离散候选集 [7] - 目标组件:定义物体坐标系下的关键点目标流,让策略直接感知每个点需要移动多少 [7] - 碰撞组件:计算每个关键点到环境的最小欧氏距离,用于标记无效接触位置 [7] - 间接定义子目标:通过预测MPC的权重组合 (w_p, w_q) 来间接定义子目标姿态,权重值从离散集合中选择,避免了RL直接探索高维姿态空间,提升了学习效率 [8] - 双分支网络架构:采用基于PointNet++的几何分支和全局运动学分支,分别处理局部接触点概率分布和宏观任务规划 [9][13] - 训练与奖励:采用PPO算法训练,奖励函数 r = r_dense + r_sparse + r_invalid,兼顾任务进度、最终目标达成和接触可行性惩罚 [11][13] 低层MPC执行的设计 - 接触建模:采用互补自由接触模型,无需求解复杂的互补约束,就能精准捕捉滚动、滑动、分离等接触模式,计算速度快,满足100Hz重规划需求 [12][16] - 优化目标:分为运行成本与终端成本,运行成本鼓励末端执行器贴近RL预测的接触位置,终端成本驱动物体在预测时域内达成子目标姿态,双重保障接触意图的实现 [17][22] - 控制频率:以100Hz高频重规划,仅将第一个控制输入发送给机器人,确保对扰动的快速响应 [12][17] 高层与低层的协同机制 - 多速率闭环:采用“慢决策、快执行”模式,高层RL每0.2秒(T=20个环境步)预测一次接触意图,低层MPC每0.01秒(100Hz)基于当前状态和固定意图进行重规划,形成决策-执行-反馈闭环 [18] - 协同优势:保证了高层决策的全局最优性,又通过低层高频重规划抵消扰动与建模误差,使操作在模拟与真实环境中都能保持稳定 [19] 实验性能与结果 - 数据效率:在几何泛化推箱任务中,框架仅需15K RL决策步(约300K控制步)达到100%成功率,而端到端策略需600K RL决策步才达到92.5%成功率,数据效率提升40倍;在3D重定向任务中,框架在200K RL决策步后成功率达98.75% [26] - 任务成功率:在模拟环境中,推箱任务对见过字母的成功率达100%,对未见过的字母成功率达97.34%;3D重定向任务成功率达98.75% [20][24] - 任务执行效率:模拟环境中,推箱任务平均完成步数仅9-11步,3D重定向任务约14步 [28] - 鲁棒性:在面对外部力、摩擦变异、执行器变异等扰动时,框架成功率保持100%,而端到端策略在执行器变异下成功率降至44.0% [25][29] - 虚实迁移(零样本部署):模拟训练的策略直接部署到真实机器人,无需微调 [30] - 几何泛化推箱:测试的12个字母中,11个达成100%成功率,仅字母“I”因细长形状导致姿态跟踪误差,成功率为70% [30] - 物体3D重定向:25次独立试验全部成功,成功率100% [30] - 接触模式:真实场景中涌现出顶面滑动、边缘支点、角点支点三类有效接触模式,证明策略能动态适配 [30] 消融实验验证关键模块 - 移除子目标预测:推箱任务成功率从100%降至26.56%,证明子目标对长时域操作至关重要 [33] - 观测坐标系不一致:将目标流改用世界坐标系后,学习完全失效,成功率接近0,证明物体中心表示是几何推理的基础 [33] - 移除碰撞组件:3D重定向任务成功率从98.75%降至85.94%,策略频繁选择被环境阻挡的无效接触位置 [33] 框架的核心价值与创新启示 - 分层推理重构操作逻辑:通过接触意图接口解耦几何-运动学与接触动力学推理,结合了RL的决策灵活性与MPC的执行稳定性 [34] - 物体中心表示赋能泛化:统一的观测设计与双分支架构,让策略摆脱对特定物体形状的依赖,实现跨未知几何的高效泛化 [34] - 打破虚实迁移壁垒:低层MPC的高频重规划与显式物理建模,降低了对模拟精度的依赖,高层RL仅学习与几何、运动学相关的决策,从而实现零样本虚实迁移 [34] 现存局限与未来方向 - 依赖精准姿态估计:框架需要准确的物体姿态信息,真实场景中姿态跟踪误差会导致操作失败,未来需探索感知-规划-控制一体化设计 [36] - 多末端执行器扩展性不足:离散关键点集合导致接触位置选择的组合复杂度随末端执行器数量指数增长,难以适配多指灵巧手,未来需优化接触意图表示 [36] - 模态扩展与效率优化:当前仅利用视觉与几何信息,未来可融合触觉、力反馈等模态以提升复杂场景适应性,并通过模型轻量化等方式优化框架效率 [36]
分层 RL-MPC 框架:让机器人 “懂几何、善接触” 的灵巧操作新范式
具身智能之心·2026-01-27 11:00