告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2%
机器之心·2025-12-10 13:10

核心观点 - 复旦大学、同济大学与上海创智学院的联合研究团队提出了一种名为自参考策略优化(SRPO)的新框架,旨在解决视觉语言动作(VLA)模型在机器人操作任务中依赖昂贵专家数据和强化学习奖励稀疏的核心瓶颈 [3] - SRPO框架通过构建内生的自参照评估机制,利用模型自身生成的成功轨迹作为参照来评估和引导失败尝试,从而实现了无需外部专家数据注入和免除任务特定奖励工程的自适应策略优化 [3][8] - 该方法在多个基准测试中展现出卓越性能:在LIBERO榜单上以99.2%的成功率刷新SOTA,在LIBERO-Plus的泛化任务上性能暴涨167%,并能大幅提升开源模型的真机表现 [3] 动机与贡献 - 当前VLA模型性能严重依赖成本高昂的专家示范数据,且存在“示范偏差”,性能难以突破人类上限;而强化学习则常因“奖励稀疏”问题,让机器人无法高效从失败中学习 [3] - 基于组优化的强化学习方法(如GRPO)是VLA-RL的重要技术路径,但仍面临多轮轨迹推理计算成本高、对失败轨迹信息利用效率低的挑战 [6] - 研究团队提出自我参考学习范式,将监督问题的核心从“如何获取专家标签”转变为“如何从自身成功经验中提取渐进式奖励” [8] - 主要贡献包括:1)提出SRPO框架,缓解奖励稀疏性,消除对专家示范或任务特定工程的依赖;2)提出基于潜在世界表征的渐进式奖励方法,克服传统像素级世界模型的泛化局限;3)实验验证了方法在基准测试中的SOTA性能、强大泛化能力及真机可迁移性 [11][12] 技术方案 - SRPO框架通过“向成功者学习”的方式运作,核心环节包括:同策略轨迹收集、世界表征提取与聚类、渐进式奖励及策略更新 [14][16] - 技术上将机器人决策过程形式化为部分可观察马尔可夫决策过程(POMDP),其核心创新在于引入世界模型驱动的、任务无关的奖励建模机制,为失败轨迹提供渐进式奖励信号 [18] - 奖励建模方法:将轨迹编码为世界模型潜空间表征,对成功轨迹表征进行聚类获得代表性中心,通过计算失败轨迹表征到最近成功中心的距离来生成渐进式奖励 [19][20] - 策略优化集成:使用世界进展奖励替代传统任务特定奖励来计算优势估计,并采用PPO风格的裁剪目标函数,添加KL散度正则项以保持策略稳定性 [21][23][24] 实验结果 - LIBERO基准性能:SRPO仅用200步强化学习,将基线模型OpenVLA *-One的成功率从48.9%提升至99.2%,刷新SOTA [27][28] - 泛化能力:在更具挑战的LIBERO-Plus泛化测试中,SRPO带来的性能提升高达167%,即便未使用任何泛化场景数据进行训练,其性能仍超越监督微调(SFT)模型 [30][31] - 训练效率:对于LIBERO长时序任务,初始One-shot SFT模型成功率仅17.3%,SRPO仅用219步即提升至98.6%,相比GRPO性能提升15.3%,相较150k步的full-shot SFT模型性能提升12.9% [34] - 真机验证:将SRPO的奖励建模应用到真实环境,在五个真机任务上,使开源模型和-fast模型的成功率相对SFT基线分别提升66.8%和86.7% [37][41] - 激发创造性:SRPO训练后的模型能够自主探索出多种专家轨迹中不存在的新路径与抓取姿态,表明其能激发机器人超越示范、自主探索新策略 [38] - 零成本替代方案:SRPO被证明是Physical Intelligence公司RECAP方法的零成本替代方案,无需针对每个任务收集数据和微调价值模型,即可获得高度相似的价值曲线趋势 [42][49] 行业意义与潜力 - SRPO框架标志着机器人学习从“模仿”走向“创造”,从“依赖”走向“自主”,为VLA强化学习开辟了一条新路径 [51] - 该方法通过利用模型自身的成功经验与物理世界常识实现性能跃迁,有望告别昂贵的数据标注和复杂的奖励设计,降低机器人智能化的门槛与成本 [51] - 该技术展示了在无需密集专家示范、人工奖励工程或训练价值模型的情况下,实现机器人操作性能显著提升的潜力,对推动具身智能和机器人行业的实际应用具有重要价值 [3][51]

告别专家依赖,让机器人学会自我参考,仅需200步性能飙升至99.2% - Reportify