Workflow
清华大学最新!πRL:用在线强化学习让机器人 “边学边做” 的通用方案
具身智能之心·2025-11-03 08:03

文章核心观点 - 清华大学、北京大学、中科院自动化所等团队联合提出创新框架RLinf 成功解决了流式视觉-语言-动作模型的大规模强化学习适配难题 [1] - RLinf通过Flow-Noise与Flow-SDE双算法结合并行仿真训练 实现了从监督微调瓶颈到近满分性能的突破 [1] - 该方案不回避流式模型的去噪特性 而是将其转化为强化学习适配的优势 为通用机器人操控奠定基础 [5][30] 技术方案创新 - Flow-Noise算法采用可学习噪声网络加单层马尔可夫决策过程 解决动作对数似然计算难题 [7] - Flow-SDE算法通过ODE转SDE加双层马尔可夫决策过程 平衡探索与效率 [9] - 采用近端策略优化算法进行策略优化 并针对流式模型特性进行动作块级奖励设计和对数似然计算适配 [9][12] - 构建共享演员-评论家架构 采用320个并行环境同步训练 实现大规模任务高效优化 [17] 性能表现 - 在LIBERO基准测试中 RLinf在少样本监督微调加强化学习设置下平均性能达到97.6% 较单纯少样本监督微调提升40个百分点 [16] - 在LIBERO长序列任务上 性能从单轨迹监督微调的43.9%提升至94.0% 甚至超过全轨迹监督微调的92.4% [16] - 在ManiSkill基准的4352种任务组合下 RLinf平均性能提升13.0%至15.3% 证明其大规模多任务优化能力 [20][22] - 近端策略优化算法在所有任务上均优于生成奖励策略优化 如在LIBERO基准平均性能近端策略优化为96.0% 生成奖励策略优化仅为90.0% [16][18] 训练与优化 - 监督微调阶段仅用少量专家轨迹初始化模型 强化学习阶段冻结视觉语言模型参数 仅微调3亿参数的动作专家模块 [17] - 最优超参数配置为噪声水平0.5 去噪步骤4步 动作块5步 过高噪声会导致动作失真 过多去噪步骤会增加计算成本 [27] - 双层马尔可夫决策过程比单层训练时间减少50% 同时保持性能差异小于1% [24] - 视觉语言模型接入评论家比动作专家接入评论家的价值损失低30% 解释方差高15% [26]