Workflow
πRL
icon
搜索文档
聊聊在线强化学习是怎么微调π0和π0.5的?为什么性能最高能提升50%以上?
具身智能之心· 2025-11-10 11:30
文章核心观点 - 行业提出πRL开源框架 旨在解决基于流的视觉-语言-动作模型应用强化学习时面临的挑战 [5][6] - 该框架通过两种创新算法实现高效强化学习微调 在基准测试中性能提升显著 [7] - 该框架验证了在线强化学习在基于流的VLA模型中的有效性 展示了可扩展的多任务强化学习能力 [7] 技术方法与创新 - FlowNoise算法将去噪过程建模为离散时间MDP 通过可学习噪声网络实现精确对数似然计算 [7] - Flow-SDE算法将去噪过程与智能体-环境交互结合 构建采用ODE至SDE转换的双层MDP以实现高效探索 [7] - 框架在并行仿真中训练基于流的VLA模型 支持异构仿真环境下的可扩展训练 [7] 性能表现与评估 - 在LIBERO基准测试中 πRL将少样本SFT模型π0的性能从57.6%提升至97.6% [7] - 在LIBERO基准测试中 πRL将少样本SFT模型π0.5的性能从77.1%提升至98.3% [7] - 在ManiSkill的4352个抓放任务中 通过320个并行环境训练πRL 展示了多任务强化学习能力 [7]
RLinf上新πRL:在线强化学习微调π0和π0.5
机器之心· 2025-11-06 16:58
技术背景与挑战 - 基于流匹配的视觉语言动作模型,如Physical Intelligence发布的π0和π0.5,能生成高维平滑的连续动作序列,在复杂操控任务中具显著优势[2] - 此类模型训练严重依赖大规模高质量人类演示数据,数据收集与标注成本高昂且周期漫长[2] - 强化学习可通过与环境交互自行探索迭代,减少对大量数据的依赖并提升监督微调的性能上限[2] - 针对流匹配视觉语言动作模型的强化学习研究较少,核心挑战在于其通过迭代去噪生成动作,难以直接计算输出动作的对数似然,而这是策略梯度方法更新的关键[2] πRL框架核心创新 - 由清华、北大、CMU等机构联合推出,是面向流匹配视觉语言动作模型的在线强化学习微调框架,基于RLinf系统实现[3] - 提出Flow-Noise和Flow-SDE两种微调方案,解决流匹配视觉语言动作模型难以直接计算输出动作对数似然的问题[8] - Flow-Noise通过将去噪过程建模为离散马尔可夫过程,直接计算去噪序列的联合概率密度[10][13] - Flow-SDE将去噪与环境交互结合,构建双层马尔可夫决策过程,训练中混合使用确定性采样和随机探索以加速训练[10][11][20] - 策略在收集数据后统一采用PPO进行策略梯度优化[10] 实验性能与结果 - 在LIBERO测试平台,πRL使π0模型平均成功率从57.6%提升至97.6%,π0.5模型从77.1%提升至98.3%,超越全数据监督微调训练的流匹配视觉语言动作模型表现[3][19] - 在LIBERO-Long长时序任务上,πRL使π0.5单样本监督微调性能从43.9%大幅提升至94.0%[21] - 在ManiSkill构建的4,352种抓取-放置任务组合中,πRL将π0成功率从38.42%提升至78.83%,π0.5成功率从40.06%提升至90.85%[24][27] - 在12个域随机化测试环境中,πRL显著提升了两类模型在新环境下的泛化性能[26][27] - 强化学习使模型完成操作任务的平均步数显著减少,效率逼近专家数据水平[28] 技术细节与消融研究 - 探索了两种Actor-Critic架构:一种将Critic部署在动作模型之后,另一种直接将Critic接入视觉语言模型后[14][16][20] - 对于π0模型,Critic接动作模型隐藏层输出更适用;对于π0.5模型,Critic接视觉语言模型隐藏层输出更优[20] - 算法对比显示,使用流匹配视觉语言动作模型时,PPO在最终性能和训练稳定性上均优于GRPO[31] - Flow-Noise收敛略快,Flow-SDE单步更新更快且与去噪步数解耦,两者最终性能接近[35] - 可学习噪声与固定噪声两种策略在相同框架下性能类似,证明两类噪声注入均有效[35] - Critic接在视觉语言模型后略优于接在动作模型后,且更稳定[35] 资源与未来方向 - 全部代码、模型和文档示例已完全开源,资源包括论文链接、开源代码库、模型仓库及复现文档[5][6] - 未来计划接入更多仿真环境进行更丰富的基准测试,并针对强化学习带来的泛化增益展开深入分析[36]