NeurIPS 2025 | CMU、清华、UTAustin开源ReinFlow，用在线RL微调机器人流匹配策略

研究背景与意义 - 流匹配技术是机器人学习领域的热门方向，作为扩散模型的变体，因其简单易用成为机器人底层操作策略的主流手段，并被广泛应用于先进的视觉语言动作模型中 [2] - 除了增加数据多样性，强化学习被视为一种高度有效的方法，可用于进一步增强开源视觉语言动作模型的能力 [2] ReinFlow算法核心原理 - ReinFlow是一个针对常微分方程策略的通用策略梯度算法，其理论基础是基于策略梯度理论推导，将确定性流转换为离散时间马尔可夫过程，从而直接优化整条流匹配链 [4][5][6] - 算法通过向流策略的确定性路径中注入少量可学习的噪声，将其转移过程改回一个随机的扩散过程，使得流匹配的联合概率可以被严格计算出来 [8][9] - 该方法虽然引入噪声改变了流匹配模型的轨迹，但通过将噪声控制到较小范围以减少与预训练策略的偏离，同时为噪声设置强度下限以鼓励适当的探索 [10] 算法性能与效率 - 在D4RL足式运动控制任务中，ReinFlow微调后的Rectified Flow策略取得了平均135.36%的净性能增长 [16] - 与当前的扩散强化学习微调方法DPPO相比，ReinFlow在保持类似性能的同时，可节省82.63%的墙钟时间 [16] - 在长程操作任务中，ReinFlow微调的Shortcut Model策略在4步甚至1步去噪的情况下，比预训练模型平均净增了40.34%的成功率，训练时间平均节省23.20% [18] 应用场景与兼容性 - ReinFlow是一个通用框架，理论上适用于所有常微分方程定义的策略，如Rectified Flow和Shortcut Models，并支持极少步数下的推理 [12] - 该框架成功应用于包含25种不同物品、十余种桌面设置和上百种初始化位姿的高度随机化场景，可大幅提高模型的抓取成功率 [20] - 更新公式可适用于几乎所有强化学习梯度算法，如PPO [12] 技术验证与消融研究 - 实验显示仅靠增加数据或推理步数较快达到性能瓶颈，而强化学习微调能进一步提升性能 [24] - ReinFlow对均匀、Logit-normal和Beta分布等多种时间采样方式都表现良好的性能 [24] - 同时以状态和时间为条件生成噪声，有助于产生更多样化的动作，噪声过小训练会陷入瓶颈，一定阈值后可探索新策略 [24] 开源资源与未来规划 - 项目已全面开源，包含完整代码库、模型检查点、WandB指标和详尽文档 [27] - 未来计划公布更多大型视觉语言模型微调结果，支持用在线强化学习微调Mean Flow，并研究将该方法用于仿真到真实世界的迁移和真机强化学习微调 [29]