重磅!武大提出RGMP框架!泛化成功率87%!数据效率提升5倍!
机器人大讲堂·2025-12-02 17:26

技术突破与核心创新 - 武汉大学团队提出递归几何先验多模态策略(RGMP)框架,创新性地将几何语义技能推理与数据高效的视觉运动控制相融合 [3] - RGMP框架在人形机器人和桌面双臂机器人平台上的泛化测试任务成功率达到87%,数据效率较当前最先进模型提升5倍 [3] - 框架采用端到端设计,通过几何先验技能选择器(GSS)和自适应递归高斯网络(ARGN)的协同工作,解决陌生场景下的技能选择难题并实现数据稀缺条件下的精准运动合成 [4] 几何先验技能选择器(GSS)模块 - GSS模块核心创新在于将几何归纳偏置融入视觉语言模型,使机器人能结合视觉几何特征和任务语义选择合适技能 [4] - 该模块采用模块化设计,具备即插即用特性,仅需20条基于规则的约束就能实现稳定性能,大幅降低调优成本 [4] - 在对比实验中,GSS的技能选择准确率比基础的Qwen-vl模型高出15%-25%,在处理人类手部、喷雾瓶等复杂目标时优势尤为明显 [8] 自适应递归高斯网络(ARGN)模块 - ARGN模块通过递归计算构建空间记忆,并引入自适应衰减机制和高斯混合模型(GMM),解决数据效率低和空间关系建模难的问题 [10] - 模块采用旋转位置编码(RoPE)建立图像斑块与机器人动作关联,无需可学习的位置参数就能增强模型对相对空间偏移的敏感性 [13] - 采用包含6个分量的高斯混合模型对应六自由度机械臂关节,在抓取压扁可乐罐任务中准确率从0.60提升至0.69 [13] 性能测试与验证 - 在泛化能力测试中,仅用40条芬达罐抓取演示样本训练模型,RGMP的平均抓取准确率达到0.87,远超Diffusion Policy的0.70和Dex-VLA的0.77 [17][18] - 对于形状不规则的压扁可乐罐,RGMP的准确率达到0.78,展现出强大的跨物体适配能力 [18] - 在Maniskill2仿真平台的五大复杂任务中,RGMP平均得分达到0.15,远超其他对比模型的0.06-0.10,在开柜门任务中得分达到0.26 [20] 数据效率优势 - RGMP仅用40条训练样本就实现了0.98的高准确率,而Diffusion Policy需要200条样本才能达到相同水平,数据效率是当前最优方案的5倍 [19] - 随着样本数量增加,RGMP的准确率稳定维持在0.98以上,展现出极佳的稳定性 [19]