鲁棒强化学习 - 财报，业绩电话会，研报，新闻

鲁棒强化学习

搜索文档

具身智能之心· 2025-11-08 12:00

文章核心观点 - 视觉-语言-动作模型在机器人操作中展现出强大的通用性，但在存在环境扰动的分布外场景中泛化能力受限 [1][5] - RobustVLA是一种轻量级的在线强化学习后训练方法，通过引入双正则化策略，旨在明确增强VLA模型对环境不确定性的鲁棒性 [1][4] - 实验结果表明，RobustVLA在观测扰动、动作扰动及联合扰动场景下的平均成功率均显著优于其他先进方法，验证了其有效性 [20][21][23] 当前行业痛点 - 尽管VLA模型得益于大规模多模态预训练，但在部署时面临观测噪声、传感器误差或执行扰动等不可避免的干扰，导致其在分布外场景中无法可靠泛化 [1][5] - 现有的基于强化学习的后训练方法主要强调奖励最大化，但忽视了应对环境不确定性的鲁棒性，使得模型在真实环境中易因微小扰动出现性能大幅下降 [1][5] RobustVLA的设计逻辑与理论基础 - 方法针对环境不确定性，重点考虑了观测噪声和动作噪声及其联合效应 [4] - 通过系统的鲁棒性理论分析，确立了误差放大界限、回报漂移控制以及鲁棒稳定性保证，并由此推导出正则化优化目标 [4][11][13][18] - 核心设计包括双正则化策略：雅可比正则化用于降低模型对观测噪声的敏感性，平滑性正则化用于在动作扰动下稳定策略 [7][8] - 整体优化目标融合了PPO的优势优化以及两种正则化项，由超参数α和β分别控制其强度 [9][10] - 采用自适应噪声调度机制，基于模型的平滑成功率动态调整注入的噪声强度，避免训练初期不稳定并逐步提升抗扰动能力 [15] 核心实验结果 - 在观测扰动场景下，RobustVLA和RobustVLA-C的平均成功率分别达到82.5%和82.2%，显著优于OpenVLA-OFT的80.6%和RIPT-VLA的80.8% [20] - 在动作扰动场景下，RobustVLA和RobustVLA-C的平均成功率均约为54.7%，超过OpenVLA-OFT的53.5%和ARFM的50.1% [21][22] - 在联合扰动场景下，RobustVLA-C以82.1%的平均成功率大幅领先，显示出在线强化学习方法与双正则化策略的协同优势 [23] - 迁移学习实验显示，RobustVLA在“开抽屉”和“放碗”等任务中，相较于零样本迁移分别提升8.0%和16.0%，展现出更强的分布外适应能力 [25] - 消融实验证明，移除任一种正则化都会导致性能下降，双正则化是鲁棒性提升的关键；可视化分析表明RobustVLA的观测表征在扰动下更稳定 [27]