聊聊在线强化学习是怎么微调π0和π0.5的?为什么性能最高能提升50%以上?
具身智能之心·2025-11-10 11:30
文章核心观点 - 行业提出πRL开源框架 旨在解决基于流的视觉-语言-动作模型应用强化学习时面临的挑战 [5][6] - 该框架通过两种创新算法实现高效强化学习微调 在基准测试中性能提升显著 [7] - 该框架验证了在线强化学习在基于流的VLA模型中的有效性 展示了可扩展的多任务强化学习能力 [7] 技术方法与创新 - FlowNoise算法将去噪过程建模为离散时间MDP 通过可学习噪声网络实现精确对数似然计算 [7] - Flow-SDE算法将去噪过程与智能体-环境交互结合 构建采用ODE至SDE转换的双层MDP以实现高效探索 [7] - 框架在并行仿真中训练基于流的VLA模型 支持异构仿真环境下的可扩展训练 [7] 性能表现与评估 - 在LIBERO基准测试中 πRL将少样本SFT模型π0的性能从57.6%提升至97.6% [7] - 在LIBERO基准测试中 πRL将少样本SFT模型π0.5的性能从77.1%提升至98.3% [7] - 在ManiSkill的4352个抓放任务中 通过320个并行环境训练πRL 展示了多任务强化学习能力 [7]