离线强化学习
搜索文档
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
量子位· 2026-04-06 13:25
文章核心观点 - 厦门大学与香港科技大学的研究团队提出了一种名为MAGE的新型离线强化学习算法,旨在解决现有生成式方法在复杂连续任务长程规划中存在的“局部合理但全局偏航”问题 [1][2][5] - MAGE采用“自顶向下、由粗到细”的生成策略,通过多尺度建模先规划宏观轨迹轮廓,再逐步细化微观动作,从而生成全局连贯且可控的高回报轨迹 [6][7][12][22] 现有算法缺陷 - 在需要长程空间理解的“迷宫吃金币”实验中,现有模型暴露了全局规划缺陷 [10][11] - Decision Transformer因单向自回归特性导致全局上下文缺失,在长程规划中迷失方向,未能抵达终点 [17] - Decision Diffuser因扩散模型的局部生成偏差,轨迹仅局部合理,遗漏关键目标(金币) [17] - Hierarchical Diffuser因其固定的双层结构僵硬,高低层策略协同不足,导致轨迹出现物理违规(如“穿墙”) [17] MAGE算法核心机制 - 核心思路是“自顶向下、由粗到细”,类比于先画素描轮廓再细化细节 [7][8] - 包含两大核心模块:MTAE多尺度轨迹自编码器,将长序列轨迹转化为从粗到细的多尺度离散Token,粗尺度掌控全局结构,细尺度建模短期细节 [16] - 多尺度条件引导自回归生成:使用Transformer序列化生成多尺度Token,并以“目标回报”和“初始状态”为条件进行约束,确保朝向最终目标 [16] - 条件引导细化与动作决策:通过集成适配器模块和引入条件引导损失函数,强制解码出的初始状态与真实环境精确对齐,最后通过潜在逆动力学模型决定最终动作 [16] 算法性能表现 - 在**高维连续控制Adroit机械臂任务**中,面对极其稀疏的奖励,MAGE实现了显著的性能提升,大幅优于对比方法 [19] - 在强调子目标执行顺序的**Franka Kitchen组合任务**中,MAGE以相当大的优势超越了所有竞争算法 [19] - 在**迷宫导航任务**中,MAGE在所有数据集上均取得了最佳性能,证明了其处理长序列导航任务的卓越能力 [20] 推理效率与部署潜力 - MAGE实现了出色的计算效率平衡,其运行速度比Hierarchical Diffuser快约**50倍**,比Decision Diffuser快**80倍** [21] - MAGE的每步推理时间保持在**27.30±0.69毫秒**,满足了真实机器人控制所要求的**20 Hz实时运行门槛** [21]
ICLR2026|山大、理想汽车和中科院联合提出离线强化学习新范式:让Transformer学会「去其糟粕」
机器之心· 2026-03-14 10:30
核心技术突破:PRGS框架 - 针对离线强化学习中训练数据固定、质量不均且传统方法(如Decision Transformer)以“整条轨迹”为学习单位导致局部有效动作被整体低回报“稀释”的痛点,山东大学、中科院、理想汽车与清华大学的研究团队联合提出了名为PRGS(Peak-Return Greedy Slicing)的新框架[2][3] - PRGS框架的目标是在不改变离线数据来源的前提下,从原始轨迹中自动筛选出更有学习价值的子轨迹用于训练,并在推理阶段避免“糟糕历史”对当前决策的干扰[3] - 该框架包含三个核心模块:1)基于最大均值差异的回报估计器,用于预测状态-动作对的潜在回报分布并获得乐观的回报估计值;2)贪心子轨迹切片,围绕轨迹中的峰值回报点进行递归切片,提取高质量子轨迹;3)推理时的自适应历史截断机制,当评估发现当前状态比历史更有前途时,会丢弃历史上下文以优化决策[11][16][19] 性能表现与实验验证 - 在D4RL、BabyAI等主流基准测试中,PRGS不仅超越了各种基线方法,更让Transformer类离线RL方法的平均性能提升了15.8%[4] - 在D4RL的Maze2D-Large迷宫任务中,应用了PRGS的DT-PRGS模型得分高达127.5,而原始Decision Transformer模型得分不到30分,展现了在需要极强“缝合能力”的复杂场景中的显著优势[22] - 在真实业务场景测试中,于阿里妈妈开源的广告竞价数据集AuctionNet上,应用了PRGS的行为克隆算法在多个周期内实现了显著的利润提升,例如BC-PRGS相比BC平均提升了9.1(从269.9提升至279.0)[25][27] 学术价值与行业影响 - 该研究成果已获接收于国际顶级机器学习会议ICLR 2026,该会议有效投稿接近19000篇,接收率约为28%,体现了其学术认可度[4] - PRGS的成功证明了在离线强化学习中,数据质量(“精”)与数据数量(“多”)同等重要,其技术框架为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考[28] - 该方法的核心逻辑模仿了人类从失败经历中学习最佳片段的过程,通过精细化操作到时间步级别,解决了传统方法粒度偏粗和缝合能力缺失的问题[15][13]
北航团队提出新的离线分层扩散框架:基于结构信息原理,实现稳定离线策略学习|NeurIPS 2025
AI前线· 2025-10-09 12:48
研究背景与动机 - 离线强化学习的核心挑战在于如何仅利用固定的历史数据集训练有效策略,而扩散模型通过将策略学习重构为条件轨迹生成任务,能有效缓解分布外状态和动作导致的“外推误差”问题[3] - 为提升长时序任务效率,分层策略被引入扩散模型,但现有方法存在固定两层扩散层次结构和单一预定义时间尺度的局限,限制了其对不同任务复杂性的适应性和决策灵活性[2][3] - 这提出了一个核心开放性挑战:如何系统地分析历史轨迹,以构建一个既可泛化又具有任务感知能力的扩散层级结构[3] SIHD框架核心设计 - SIHD框架从层级构建、条件扩散和正则化探索三个方面进行创新设计,以应对现有方法的局限性[5] - 框架通过分析离线轨迹中内嵌的“结构信息”,自适应地构建一个多尺度的扩散层级,从而在具有稀疏奖励的长时序环境中实现高效、稳定的离线策略学习[2] - 其核心设计旨在克服固定层级结构和单一时间尺度的刚性限制,提升决策性能和灵活性[6] 基于结构信息的多尺度扩散层级构建 - SIHD首先从离线数据集中提取所有状态元素,并基于特征相似度构建一个k-近邻状态图[8] - 接着应用结构信息原理,通过HCSE优化算法最小化K-维结构熵,从而获得一个最优的树状编码结构,该树的每一层都代表了在不同粒度上对状态空间的划分[8] - 基于定义的社群结构,SIHD能够为每一条历史轨迹进行自适应的层级分割,确保每个片段内的状态都属于同一个社群,并将每个片段的末端状态定义为该层的子目标[8] - 这一过程使得SIHD能够从数据中自动推断出不同任务的动态时间尺度,构建出一个灵活的多尺度扩散层级[9] 基于结构信息增益的条件扩散模型 - 在SIHD中,每一层的扩散模型都由其上一层的子目标序列进行引导,但创造性地使用结构信息增益作为引导信号,而非传统方法依赖的局部奖励信号[10] - 对于层级中的子序列,其条件输入被定义为对应状态社群的结构信息增益,该增益项量化了从高层级社群过渡到更具体子社群所获得的“信息量”[10] - 这种引导方式不直接依赖于可能稀疏或有噪声的奖励函数,从而使生成过程更加稳定和鲁棒[10] 结构熵正则化器 - SIHD引入了一个结构熵正则化器,旨在缓解对有限离线数据集的过分依赖并鼓励有效探索[11] - 该正则化项通过最大化状态分布的香农熵来鼓励策略探索数据集中覆盖不足的状态区域,同时通过最小化在每个层级的社群划分上的结构熵来约束策略不会过度偏离由编码的行为模式,从而减轻分布偏移带来的风险[12] - 最终的训练目标函数将扩散模型的标准损失与这个正则化项结合起来,尤其是在底层的动作生成模型中,以实现探索与利用的平衡[12] 实验结果与分析 - 在D4RL Gym-MuJoCo基准测试中,SIHD在HalfCheetah、Hopper和Walker2D任务上均取得了最优的平均回报,相较于HDMI和HD等先进分层基线表现出更强的泛化能力[16][17] - 在中低质量的"Medium"和"Medium-Replay"数据集上,SIHD的性能优势尤为突出,平均提升分别达到3.8%和3.9%,验证了结构熵正则化器在缓解数据质量依赖方面的有效性[17] - 在奖励稀疏且对长时序规划要求更高的Maze2D和AntMaze任务中,SIHD的优势更加显著,在所有导航任务的数据集上均实现了最佳性能,平均奖励在单任务Maze2D、多任务Maze2D和AntMaze上分别领先8.3%、7.4%和4.4%[19][22] - 在AntMaze-Large数据集上,SIHD的得分为89.4,显著高于次优方法HD的83.6,并展现了卓越的鲁棒性,在数据质量下降时,其性能降幅被控制在17.1%以内,而基线方法最大降幅可达27.4%[22] 消融研究 - 消融研究证实了SIHD各个组件的必要性,尤其是自适应多尺度层级(SIHD-DH),它的缺失会导致最严重的性能下降,特别是在长时序任务中[21] - 研究结果表明,基于结构信息的自适应层级构建、结构信息增益的条件引导以及结构熵正则化探索共同贡献了SIHD框架的卓越性能[21][23]
GUI智能体训练迎来新范式!半在线强化学习让7B模型媲美GPT-4o
量子位· 2025-09-23 19:01
核心观点 - 浙江大学与通义实验室Mobile-Agent团队提出UI-S1框架 采用半在线强化学习训练范式 显著提升GUI智能体在动态多轮任务中的表现 在AndroidWorld任务中达到34.0%成功率 接近GPT-4o的34.5% [1][2][25] - 该方法融合离线训练稳定性与在线学习长程优化能力 通过模拟在线交互过程 在不依赖真实环境交互的前提下提升模型连贯性与推理能力 [2][4][9] - 创新性体现为三大核心技术:半在线机制模拟在线交互 补丁机制修复采样偏差 长程奖励建模捕获轨迹级优势 [10][12][20] 技术架构创新 - 半在线机制在离线数据中保留模型自身原始输出(动作选择与思维链) 使模型感知历史行为并调整后续决策 增强策略一致性与多轮连贯性 [14][15][16] - 补丁机制提供三种可配置策略:Thought-Free Patch仅修正动作 On-Policy Thought Patch引导模型生成正确推理 Off-Policy Thought Patch调用外部模型重写思维链 [17][18] - 长程奖励建模引入折扣因子γ(最优值为0.5) 结合未来步骤潜在价值形成综合奖励 弥补传统离线RL无法捕获未来收益的缺陷 [20][21][43] 性能表现 - 在AndroidWorld任务中UI-S1-7B达到34.0%成功率 较基础模型提升+19.1个百分点 接近GPT-4o(34.5%)且优于UI-TARS-7B(33.0%) [25][27] - 单轮任务保持优势 GUI Odyssey任务较基础模型提升+7.1个百分点 证明未牺牲局部精度 [27][28] - 动态评测指标SOP与真实在线性能高度对齐 支持更高任务多样性和更快评估速度 [23] 机制有效性验证 - 提高补丁阈值显著提升性能:当阈值从0增至8时 AndroidWorld得分从21.0提升至34.5 [31] - On-Policy Thought Patch性能最优但计算开销大 Thought-Free Patch性价比最高且接近最优性能 [32][33] - 较高补丁阈值维持策略熵 避免过早收敛 促进探索多样性 [19][35][36] 数据与扩展性 - 性能增长符合指数型数据规模律 补丁阈值从0增至无穷时指数系数k从-1.13提升至-0.73 表明单位数据边际收益改善 [38][39][40] - 联合使用SFT与半在线RL效果最优 AndroidWorld任务成功率34.0% 分别高于单独使用Semi-online RL(30.4%)和SFT(21.7%) [27][44]
成功率提高57%,VLA+RL最新!CO-RFT:实现VLA模型的高效微调(北航&清华等)
具身智能之心· 2025-08-07 08:03
核心观点 - VLA模型在现实世界机器人控制中展现出巨大潜力 但传统监督微调方法面临样本效率低和泛化能力差的问题[4] - 提出分块强化学习框架(Chunked RL)和CO-RFT算法 通过结合动作分块的离线强化学习显著提升模型性能[8] - CO-RFT采用两阶段训练 先通过模仿学习初始化网络 再用离线RL优化策略 在6个任务中平均成功率提升57% 周期时间减少22 3%[29][30] - 该方法展现出强大位置泛化能力 在未见过的位置上达到44 3%成功率 显著优于传统方法[30] 技术框架 - 分块强化学习框架扩展了时间差分学习 采用自注意力和因果掩码设计 仅需一个网络即可学习所有Q值[13][15] - CO-RFT算法第一阶段通过全参数微调进行模仿学习 第二阶段实施带动作分块的离线RL优化[16] - 采用CalQL作为基础算法 其保守正则化器可防止Q值高估 并解决稀疏奖励问题[16][18] - 模型架构基于RoboVLMs 使用Kosmos2作为VLM主干 并采用TD3算法生成确定性动作[18] 实验结果 - 在6个灵巧操作任务评估中 CO-RFT在4个任务达到近100%成功率 显著优于SFT方法[29] - 抓取消毒剂和取回马克杯等困难任务中 CO-RFT分别实现36%和30%成功率 展示处理复杂场景能力[29] - 数据多样性对性能影响显著 随机初始化数据集训练的模型OOD性能仅下降10-15% 而固定初始化下降55 3%[32][33] - 奖励上采样策略有效缓解稀疏奖励问题 提升价值学习效率[18] 应用价值 - 该方法使用30-60个样本即可有效微调 大幅降低数据需求 提升样本效率[4][29] - 在Realman单臂平台和Inspire灵巧手上验证 展示实际机器人应用潜力[23] - 解决VLA模型在现实场景部署的关键挑战 包括样本效率 训练稳定性和泛化能力[8][30] - 为具身智能领域提供新思路 结合离线RL和动作分块技术突破性能瓶颈[34]