Workflow
鲁棒强化学习
icon
搜索文档
西湖大学最新!RobustVLA:面向VLA模型的鲁棒性感知强化后训练方法(优于SOTA方案)
具身智能之心· 2025-11-08 12:00
文章核心观点 - 视觉-语言-动作模型在机器人操作中展现出强大的通用性,但在存在环境扰动的分布外场景中泛化能力受限 [1][5] - RobustVLA是一种轻量级的在线强化学习后训练方法,通过引入双正则化策略,旨在明确增强VLA模型对环境不确定性的鲁棒性 [1][4] - 实验结果表明,RobustVLA在观测扰动、动作扰动及联合扰动场景下的平均成功率均显著优于其他先进方法,验证了其有效性 [20][21][23] 当前行业痛点 - 尽管VLA模型得益于大规模多模态预训练,但在部署时面临观测噪声、传感器误差或执行扰动等不可避免的干扰,导致其在分布外场景中无法可靠泛化 [1][5] - 现有的基于强化学习的后训练方法主要强调奖励最大化,但忽视了应对环境不确定性的鲁棒性,使得模型在真实环境中易因微小扰动出现性能大幅下降 [1][5] RobustVLA的设计逻辑与理论基础 - 方法针对环境不确定性,重点考虑了观测噪声和动作噪声及其联合效应 [4] - 通过系统的鲁棒性理论分析,确立了误差放大界限、回报漂移控制以及鲁棒稳定性保证,并由此推导出正则化优化目标 [4][11][13][18] - 核心设计包括双正则化策略:雅可比正则化用于降低模型对观测噪声的敏感性,平滑性正则化用于在动作扰动下稳定策略 [7][8] - 整体优化目标融合了PPO的优势优化以及两种正则化项,由超参数α和β分别控制其强度 [9][10] - 采用自适应噪声调度机制,基于模型的平滑成功率动态调整注入的噪声强度,避免训练初期不稳定并逐步提升抗扰动能力 [15] 核心实验结果 - 在观测扰动场景下,RobustVLA和RobustVLA-C的平均成功率分别达到82.5%和82.2%,显著优于OpenVLA-OFT的80.6%和RIPT-VLA的80.8% [20] - 在动作扰动场景下,RobustVLA和RobustVLA-C的平均成功率均约为54.7%,超过OpenVLA-OFT的53.5%和ARFM的50.1% [21][22] - 在联合扰动场景下,RobustVLA-C以82.1%的平均成功率大幅领先,显示出在线强化学习方法与双正则化策略的协同优势 [23] - 迁移学习实验显示,RobustVLA在“开抽屉”和“放碗”等任务中,相较于零样本迁移分别提升8.0%和16.0%,展现出更强的分布外适应能力 [25] - 消融实验证明,移除任一种正则化都会导致性能下降,双正则化是鲁棒性提升的关键;可视化分析表明RobustVLA的观测表征在扰动下更稳定 [27]