Workflow
策略组合
icon
搜索文档
无需再训练即可增强性能!港大团队提出GPC框架,实现机器人「策略组合」
机器之心· 2025-10-19 17:17
文章核心观点 - 香港大学团队提出了一种名为GPC(通用策略组合)的全新免训练框架,旨在提升机器人控制策略的性能 [2] - GPC框架通过在测试时对多个预训练模型的决策分数进行动态融合,创造出一个性能超越任何单一父策略的组合策略 [2] - 该框架打破了传统性能提升方式对数据和算力的依赖,能够灵活融合不同架构和模态的机器人策略 [2] 技术原理与理论基石 - GPC的核心思想是在机器人执行任务的瞬间,通过凸组合的方式将多个预训练策略的决策分数进行动态融合 [7] - 研究证明,对决策分数进行凸组合能够生成一个在单步上具有更低误差的组合分数,比任何单一策略的分数更精确 [9] - 通过建立Grönwall型界限,研究证明了单步的误差改善能够沿整个轨迹传播,确保组合策略在系统层面具有性能提升和稳定性 [10] - 理论公式表明,组合策略的轨迹采样误差低于任何单一策略的误差 [12] 框架通用性与组合机制 - GPC框架具备“即插即用”的通用性,以免训练的方式整合各种机器人策略 [14][15] - 其统一的分数凸组合机制能有效平衡来自不同条件的信息,生成更稳定、连贯的动作轨迹 [17] - 框架能够跨越策略架构进行组合,兼容基于扩散模型或基于流匹配的策略 [19] - 框架能够融合不同输入模态的策略,如视觉-动作模型、视觉-语言-动作模型等 [19] - GPC框架自然地连接了叠加原理,提供了Logical OR和Logical AND等更强大的组合操作符 [18][20] 权重搜索与性能优化 - GPC框架的权重搜索机制能为不同任务和场景量身定制最优的组合策略 [23] - 实验表明,当被组合的两个策略都具有中等准确率时,GPC能实现比单一基线策略更高的准确率,提升幅度最高达24% [24][26] - 当其中一个策略准确率显著较低时,GPC难以超越表现最好的基线策略的峰值性能 [26] - GPC性能的提升总是伴随着表现较好的基线策略获得更大权重时被最大化 [26] 实验验证与实际效果 - 在Robomimic、PushT等仿真测试平台上,GPC策略实现了最高7.55%的平均成功率提升 [28] - 在复杂的RoboTwin双臂协作任务上,GPC策略提升了7%的性能 [28] - 通过Logical AND组合,Diffusion Policy与Mamba Policy组合策略在Robomimic的Can任务上成功率提升至84%,较基线提升25.73% [30] - 真实世界采用PiPER机器人进行的实验显示,GPC在4个实际任务中对比单一基线成功率拥有5-10%的提升 [30]