机器人灵巧操作
搜索文档
分层 RL-MPC 框架:让机器人 “懂几何、善接触” 的灵巧操作新范式
具身智能之心· 2026-01-27 11:00
文章核心观点 - 亚利桑那州立大学等团队提出的分层RL-MPC框架,通过引入“接触意图”接口,将高层几何与运动学推理和低层接触动力学执行解耦,成功解决了机器人灵巧操作中数据需求大、虚实迁移难、泛化能力弱的三重挑战,在实验中实现了近100%任务成功率、高达40倍的数据效率提升以及零样本虚实迁移 [2][37] 传统灵巧操作方案的困境 - **端到端视觉运动策略**:需要海量数据学习非光滑接触动力学,长时域任务效率极低;过度依赖模拟动力学模型,虚实迁移差距大;跨物体几何、跨场景泛化能力弱 [3] - **传统模型控制方案**:基于固定运动原语或接触模式规划,扩展性差,难以适配开放环境中多样物体形状;缺乏灵活决策机制,面对扰动易失效 [3] - **简单分层策略**:层级间耦合松散,未形成闭环优化;未明确几何-运动学与动力学的推理边界,导致决策与执行脱节 [3] 分层RL-MPC框架的核心创新:接触意图 - **定义与作用**:接触意图是高层RL的输出和低层MPC的输入,定义为 `(C, T_sub)`,其中 `C` 是物体表面的接触位置集合,`T_sub` 是接触后的物体子目标姿态,它将抽象操作决策转化为结构化信息,使RL无需处理复杂接触力计算,MPC无需猜测高层意图 [6] - **接触位置选择**:`C` 中的位置从物体点云下采样的关键点中筛选,确保与物体几何形状精准适配 [6] - **子目标设计**:`T_sub` 是朝向最终目标的关键中间态,这种分步设计大幅降低了长时域任务的学习难度 [6] 高层RL策略的设计 - **观测空间设计**:采用“几何+目标+碰撞”三组件设计,所有信息基于物体坐标系构建 [7] - **几何组件**:从物体点云均匀下采样N个关键点,既近似物体几何,又作为接触位置的离散候选集 [7] - **目标组件**:定义物体坐标系下的关键点目标流,让策略直接感知每个点需要移动多少 [7] - **碰撞组件**:计算每个关键点到环境的最小欧氏距离,用于标记无效接触位置 [7] - **间接定义子目标**:通过预测MPC的权重组合 `(w_p, w_q)` 来间接定义子目标姿态,权重值从离散集合中选择,避免了RL直接探索高维姿态空间,提升了学习效率 [8] - **双分支网络架构**:采用基于PointNet++的几何分支和全局运动学分支,分别处理局部接触点概率分布和宏观任务规划 [9][13] - **训练与奖励**:采用PPO算法训练,奖励函数 `r = r_dense + r_sparse + r_invalid`,兼顾任务进度、最终目标达成和接触可行性惩罚 [11][13] 低层MPC执行的设计 - **接触建模**:采用互补自由接触模型,无需求解复杂的互补约束,就能精准捕捉滚动、滑动、分离等接触模式,计算速度快,满足100Hz重规划需求 [12][16] - **优化目标**:分为运行成本与终端成本,运行成本鼓励末端执行器贴近RL预测的接触位置,终端成本驱动物体在预测时域内达成子目标姿态,双重保障接触意图的实现 [17][22] - **控制频率**:以100Hz高频重规划,仅将第一个控制输入发送给机器人,确保对扰动的快速响应 [12][17] 高层与低层的协同机制 - **多速率闭环**:采用“慢决策、快执行”模式,高层RL每0.2秒(T=20个环境步)预测一次接触意图,低层MPC每0.01秒(100Hz)基于当前状态和固定意图进行重规划,形成决策-执行-反馈闭环 [18] - **协同优势**:保证了高层决策的全局最优性,又通过低层高频重规划抵消扰动与建模误差,使操作在模拟与真实环境中都能保持稳定 [19] 实验性能与结果 - **数据效率**:在几何泛化推箱任务中,框架仅需15K RL决策步(约300K控制步)达到100%成功率,而端到端策略需600K RL决策步才达到92.5%成功率,数据效率提升40倍;在3D重定向任务中,框架在200K RL决策步后成功率达98.75% [26] - **任务成功率**:在模拟环境中,推箱任务对见过字母的成功率达100%,对未见过的字母成功率达97.34%;3D重定向任务成功率达98.75% [20][24] - **任务执行效率**:模拟环境中,推箱任务平均完成步数仅9-11步,3D重定向任务约14步 [28] - **鲁棒性**:在面对外部力、摩擦变异、执行器变异等扰动时,框架成功率保持100%,而端到端策略在执行器变异下成功率降至44.0% [25][29] - **虚实迁移(零样本部署)**:模拟训练的策略直接部署到真实机器人,无需微调 [30] - **几何泛化推箱**:测试的12个字母中,11个达成100%成功率,仅字母“I”因细长形状导致姿态跟踪误差,成功率为70% [30] - **物体3D重定向**:25次独立试验全部成功,成功率100% [30] - **接触模式**:真实场景中涌现出顶面滑动、边缘支点、角点支点三类有效接触模式,证明策略能动态适配 [30] 消融实验验证关键模块 - **移除子目标预测**:推箱任务成功率从100%降至26.56%,证明子目标对长时域操作至关重要 [33] - **观测坐标系不一致**:将目标流改用世界坐标系后,学习完全失效,成功率接近0,证明物体中心表示是几何推理的基础 [33] - **移除碰撞组件**:3D重定向任务成功率从98.75%降至85.94%,策略频繁选择被环境阻挡的无效接触位置 [33] 框架的核心价值与创新启示 - **分层推理重构操作逻辑**:通过接触意图接口解耦几何-运动学与接触动力学推理,结合了RL的决策灵活性与MPC的执行稳定性 [34] - **物体中心表示赋能泛化**:统一的观测设计与双分支架构,让策略摆脱对特定物体形状的依赖,实现跨未知几何的高效泛化 [34] - **打破虚实迁移壁垒**:低层MPC的高频重规划与显式物理建模,降低了对模拟精度的依赖,高层RL仅学习与几何、运动学相关的决策,从而实现零样本虚实迁移 [34] 现存局限与未来方向 - **依赖精准姿态估计**:框架需要准确的物体姿态信息,真实场景中姿态跟踪误差会导致操作失败,未来需探索感知-规划-控制一体化设计 [36] - **多末端执行器扩展性不足**:离散关键点集合导致接触位置选择的组合复杂度随末端执行器数量指数增长,难以适配多指灵巧手,未来需优化接触意图表示 [36] - **模态扩展与效率优化**:当前仅利用视觉与几何信息,未来可融合触觉、力反馈等模态以提升复杂场景适应性,并通过模型轻量化等方式优化框架效率 [36]
许华哲团队最新DOGlove!仅600美元成本,代码开源,彻底打破灵巧操作的普及壁垒
具身智能之心· 2026-01-22 09:05
点击下方 卡片 ,关注" 具身智能 之心 "公众号 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 在机器人灵巧操作领域,"精准遥操作" 与 "低成本普及" 似乎是一对不可调和的矛盾。商用力反馈手套动辄 5000 美元以上,普通科研团队难以负担;而低成本 方案要么自由度不足,要么缺乏关键的触觉力反馈,导致机器人在接触密集型任务中 "抓不准、拿不稳"。 清华大学、上海 AI 实验室等团队联合推出的 DOGlove ,用不到 600 美元的成本实现了 21 自由度运动捕捉与 5 自由度双模态反馈,不仅能让机器人精准完成 "挤炼乳""盲抓瓶子" 等复杂任务,还能为模仿学习提供高质量数据。更关键的是,它完全开源,从机械设计到代码算法全部公开,彻底打破了灵巧操作技术的 普及壁垒。 项目地址:https://do-glove.github.io/ 论文地址:https://arxiv.org/pdf/2502.07730v1 痛点暴击:传统遥操作的 "三大死穴" 当前灵巧手遥操作技术始终卡在 "成本、精度、反馈" ...
只需少量演示即可灵活应对多样物体!阿米奥冯骞团队携低成本精准灵巧操作方案亮相IROS!
具身智能之心· 2025-10-20 08:03
技术方案核心创新 - 提出LensDFF框架,利用语言特征作为语义锚点,通过动态投影公式将CLIP提取的2D视觉特征对齐到3D空间,从根源解决跨视角特征不一致问题,且全程无需微调或额外训练对齐网络[2] - 将5种抓取原语(捏、钩、三脚架等)融入少样本演示,搭配法向量引导初始化和低维eigengrasp优化,使DLR-HIT灵巧手能根据物体形状自适应调整手指动作,显著提升灵巧性[2] - 设计real2sim流水线实现仿真快速调参,端到端耗时压缩至13秒,比SparseDFF快3秒、比F3RM快近5分钟[2] 性能表现与实验数据 - 在12个YCB物体测试中,单视角抓取成功率超40%(仿真)、64%(真实场景),在核心指标(>3秒成功率)上超越F3RM 16.9%、SparseDFF 15.8%[2][30][32] - 特征对齐仅需70毫秒,整体运行时间仅13秒(含SAM2与CLIP推理),真实场景成功率64%,运行时间比SparseDFF短3秒,远快于F3RM的5分钟[2][30][32] - 消融实验验证技术必要性:无特征对齐成功率0%,仅语言增强成功率34.17%,完整LensDFF方案成功率40.83%[33] 行业应用前景 - 技术使机器人在家庭服务、工业分拣等场景中,无需依赖海量数据,仅通过少量演示就能应对多样物体,为低成本落地灵巧操作提供了新路径[3][38] - 方案尤其适用于需要快速适配未知物体的场景,如柔性制造、物流分拣等对机器人操作效率和适应性要求高的领域[38] - 通过多模态大模型的特征蒸馏实现少样本学习,降低了机器人灵巧操作的数据采集和训练成本,提升了技术商业化落地的可行性[3] 公司技术背景 - 技术由阿米奥机器人公司研发,成果一作为公司联合创始人兼技术负责人冯骞,其硕博就读于德国慕尼黑工业大学,师从机器人泰斗Alois Knoll,曾是思灵机器人早期员工、研究科学家[5][39] - 公司团队为复合型作战团队,由汽车/3C大厂高管带队,涵盖科学家、大模型人才及工程落地专家,创始人刘方为小米早期员工及小米汽车自动驾驶产品技术负责人[39] - 公司专注于为全球制造业智能化转型提供核心技术,聚焦工业场景的柔性生产需求,致力于通过自主创新的机器人解决方案重构企业级生产效能[39]