缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈
量子位·2025-09-26 10:08
为此,研究团队提出了 SimpleVLA-RL 。基于veRL框架,他们实现了针对VLA模型的交互式轨迹采样与并行仿真渲染机制。 SimpleVLA-RL团队 投稿 量子位 | 公众号 QbitAI 视觉-语言-动作模型是实现机器人在复杂环境中灵活操作的关键因素。 然而,现有训练范式存在一些核心瓶颈,比如数据采集成本高、泛化能力不足等。 实验结果表明,该框架在LIBERO与RoboTwin等标准基准测试中均实现了 SoTA 的性能。更为关键的是,即便在有限数据的条件下, SimpleVLA-RL依然能够训练出表现优异的模型并具备极高的泛化能力。 在 "单轨迹 SFT"(每个任务仅1条演示数据)场景下,应用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率 从48.9%提升至96.9% ,长时序任务LIBERO-Long 从17.3%提升至91.7% 。 降低对大规模演示数据的依赖,提升数据效率; 增强模型在分布偏移场景下的泛化能力; 实现高效的Sim-to-Real迁移,提升真实世界任务性能。 SimpleVLA-RL:端到端在线训练方案 VLA模型作为机器人操控领域的重要研究范式,旨 ...