文章核心观点 - 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素 [1] - 研究团队提出的SimpleVLA-RL框架解决了VLA模型训练的核心瓶颈,显著提升了性能、数据效率和泛化能力 [3][5] - 该框架在多个标准基准测试中实现了最先进的性能,并在真实世界任务中展现出强大的仿真到现实迁移能力 [5][19][28] 现有训练范式的瓶颈 - 现有主流训练流程依赖大规模预训练加有监督微调,面临数据稀缺性和泛化能力不足两大核心瓶颈 [8] - 高质量机器人操作轨迹数据采集成本高昂、规模受限,从根本上制约了模型的可扩展性 [8] - 有监督微调的学习过程高度依赖特定数据分布,在面对分布外任务、新环境或未见对象时性能显著下降 [9] - 将强化学习直接应用于VLA训练面临过程奖励设计复杂和与物理环境交互成本高的独特挑战 [9] SimpleVLA-RL框架设计 - 框架基于veRL扩展,是专门针对VLA模型特点优化的端到端在线训练方案 [12] - 采用交互式轨迹采样机制,模型直接输出动作token概率分布,在闭环中不断更新视觉观测和机器人状态 [13] - 使用极简的二元结果奖励建模,任务成功记为1失败记为0,奖励均匀分摊到整个轨迹的动作token上 [14] - 引入探索增强策略,包括动态采样、扩大GRPO裁剪区间和提高rollout采样温度,以避免轨迹同质化 [15][17] - 简化训练目标,移除KL散度正则项,不再依赖参考模型,减少内存消耗并鼓励新行为探索 [16] 性能提升与基准测试结果 - 在LIBERO基准测试中,将OpenVLA-OFT的平均成功率从91.0%提升至99.1%,长时序任务LIBERO-Long提升12.0个百分点 [21][22] - 在RoboTwin1.0基准上,四个任务平均成功率从39.8%提升至70.4%,其中"Blocks Stack"任务提升33.1个百分点 [23][24] - 在RoboTwin2.0基准上,覆盖短/中/长/超长时序12个任务,平均成功率从38.3%提升至68.8% [25][26] - 在"单轨迹有监督微调"场景下,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务从17.3%提升至91.7% [5] 数据效率与泛化能力 - 仅需单个演示轨迹即可显著提升模型性能,大幅降低对大规模演示数据的依赖 [5][19] - 在未见任务测试中,SimpleVLA-RL所有未见任务成功率均提升,其中LIBERO-Object的"Unseen Task 2"提升36.5个百分点 [26] - 与有监督微调在未见任务上出现"灾难性遗忘"相比,强化学习能学习通用技能而非过拟合特定数据 [26] 仿真到现实迁移能力 - 仅使用仿真数据训练,在真实机器人测试中平均成功率从17.5%提升至38.5%,"Stack Bowls"任务提升32个百分点 [28][29] - "Pick Bottle"任务从完全失败实现14%成功率,证明强化学习能增强仿真模型的真实环境适配性 [28][29] 自主探索与新策略涌现 - 训练过程中模型展现出自主探索能力,涌现出新的操作策略,如通过"推动"替代"抓取"的Pushcut现象 [10][29] - 结果奖励不约束具体动作模式,允许模型在满足任务目标前提下自主选择更优行为路径 [30] - 这一现象证明强化学习能让VLA模型超越人类演示局限,为未来自主自适应模型研发提供新范式 [31]
缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
量子位·2025-09-26 10:08