SFT 还是RL,VLA到底应该如何训练?
具身智能之心·2025-10-28 08:02
研究核心观点 - 聚焦两篇具身强化学习与视觉-语言-动作模型的前沿工作,旨在解决VLA模型泛化能力不足及RL与VLA联合训练效率低下的问题,提出了创新的评测基准与高效训练框架 [2][3][10][15] 第一篇论文研究总结 - 论文系统探讨了强化学习对VLA模型泛化能力的促进作用,针对监督微调导致的误差累积与分布偏移问题,构建了覆盖视觉、语义与执行三大维度的泛化能力评测基准 [2] - 实验结果表明,采用PPO进行RL微调可显著提升语义理解与执行鲁棒性,同时保持与监督微调相当的视觉泛化表现 [2] - 研究发现PPO在VLA场景中整体优于源自大语言模型范式的DPO与GRPO方法,并基于此提出一套高效可复用的PPO训练方案,降低了大规模应用强化学习的门槛 [2] 第二篇论文研究总结 - RLinf-VLA是一个专用于VLA模型大规模强化学习训练的统一高效框架,针对仿训推一体化挑战提出全新解决方案,相比基线方法训练加速高达2.27倍 [3] - 框架通过统一接口无缝支持多种VLA架构、多种强化学习算法以及多种模拟器,其单一模型在130个LIBERO任务上达到了98.11%的成功率 [3] - 该框架还总结了一套将强化学习应用于VLA训练的最佳实践,具有重要的工程应用价值 [3] 研究团队与资源 - 研究团队核心成员来自清华大学交叉信息研究院,在强化学习与机器人学习领域拥有深厚的研究背景 [4][12][14] - 两篇研究论文及相关代码均已公开,便于行业参考与复现 [6][7]