清华大学最新！πRL：用在线强化学习让机器人 “边学边做” 的通用方案

文章核心观点 - 清华大学、北京大学、中科院自动化所等团队联合提出创新框架RLinf 成功解决了流式视觉-语言-动作模型的大规模强化学习适配难题 [1] - RLinf通过Flow-Noise与Flow-SDE双算法结合并行仿真训练实现了从监督微调瓶颈到近满分性能的突破 [1] - 该方案不回避流式模型的去噪特性而是将其转化为强化学习适配的优势为通用机器人操控奠定基础 [5][30] 技术方案创新 - Flow-Noise算法采用可学习噪声网络加单层马尔可夫决策过程解决动作对数似然计算难题 [7] - Flow-SDE算法通过ODE转SDE加双层马尔可夫决策过程平衡探索与效率 [9] - 采用近端策略优化算法进行策略优化并针对流式模型特性进行动作块级奖励设计和对数似然计算适配 [9][12] - 构建共享演员-评论家架构采用320个并行环境同步训练实现大规模任务高效优化 [17] 性能表现 - 在LIBERO基准测试中 RLinf在少样本监督微调加强化学习设置下平均性能达到97.6% 较单纯少样本监督微调提升40个百分点 [16] - 在LIBERO长序列任务上性能从单轨迹监督微调的43.9%提升至94.0% 甚至超过全轨迹监督微调的92.4% [16] - 在ManiSkill基准的4352种任务组合下 RLinf平均性能提升13.0%至15.3% 证明其大规模多任务优化能力 [20][22] - 近端策略优化算法在所有任务上均优于生成奖励策略优化如在LIBERO基准平均性能近端策略优化为96.0% 生成奖励策略优化仅为90.0% [16][18] 训练与优化 - 监督微调阶段仅用少量专家轨迹初始化模型强化学习阶段冻结视觉语言模型参数仅微调3亿参数的动作专家模块 [17] - 最优超参数配置为噪声水平0.5 去噪步骤4步动作块5步过高噪声会导致动作失真过多去噪步骤会增加计算成本 [27] - 双层马尔可夫决策过程比单层训练时间减少50% 同时保持性能差异小于1% [24] - 视觉语言模型接入评论家比动作专家接入评论家的价值损失低30% 解释方差高15% [26]