πRL
搜索文档
RLinf上新πRL:在线强化学习微调π0和π0.5
机器之心· 2025-11-06 16:58
近年来, 基于流匹配的 VLA 模型 ,特别是 Physical Intelligence 发布的 π0 和 π0.5 ,已经成为机器人领域备受关注的前沿技术路线。流匹配以极简方 式建模多峰分布,能够 生成高维且平滑的连续动作序列 ,在应对复杂操控任务时展现出显著优势。 尽管如此, VLA 模型 在训练过程中严重依赖于 大规模、高质量的人类演示数据 ,而收集和标注这些数据的成本高昂且周期漫长。强化学习允许智能体通 过与环境的真实交互自行探索和迭代改进,可以减少 VLA 模型 对 大量数据的依赖 ,并进一步 提升 SFT 的性能 上限 。 目前,针对流匹配 VLA 的 RL 研究仍较少,主流工作大多集中在 OpenVLA 和 OpenVLA-OFT 等 自回归 VLA 上 。其核心挑战在于:流匹配 VLA 通过 迭代去噪生成动作,导致难以直接计算 输出动作的对数似然 ——而这是 PPO、GRPO 等 策略梯度方法更新的关键。 清华、北大、CMU 等机构 联合推出了一套面向流匹配 VLA( π0 , π0.5 )的在线强化学习( PPO 和 GRPO )微调框架 πRL 。该框架基于 RLinf (首个面向具身智 ...