Workflow
多尺度自回归生成
icon
搜索文档
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
量子位· 2026-04-06 13:25
文章核心观点 - 厦门大学与香港科技大学的研究团队提出了一种名为MAGE的新型离线强化学习算法,旨在解决现有生成式方法在复杂连续任务长程规划中存在的“局部合理但全局偏航”问题 [1][2][5] - MAGE采用“自顶向下、由粗到细”的生成策略,通过多尺度建模先规划宏观轨迹轮廓,再逐步细化微观动作,从而生成全局连贯且可控的高回报轨迹 [6][7][12][22] 现有算法缺陷 - 在需要长程空间理解的“迷宫吃金币”实验中,现有模型暴露了全局规划缺陷 [10][11] - Decision Transformer因单向自回归特性导致全局上下文缺失,在长程规划中迷失方向,未能抵达终点 [17] - Decision Diffuser因扩散模型的局部生成偏差,轨迹仅局部合理,遗漏关键目标(金币) [17] - Hierarchical Diffuser因其固定的双层结构僵硬,高低层策略协同不足,导致轨迹出现物理违规(如“穿墙”) [17] MAGE算法核心机制 - 核心思路是“自顶向下、由粗到细”,类比于先画素描轮廓再细化细节 [7][8] - 包含两大核心模块:MTAE多尺度轨迹自编码器,将长序列轨迹转化为从粗到细的多尺度离散Token,粗尺度掌控全局结构,细尺度建模短期细节 [16] - 多尺度条件引导自回归生成:使用Transformer序列化生成多尺度Token,并以“目标回报”和“初始状态”为条件进行约束,确保朝向最终目标 [16] - 条件引导细化与动作决策:通过集成适配器模块和引入条件引导损失函数,强制解码出的初始状态与真实环境精确对齐,最后通过潜在逆动力学模型决定最终动作 [16] 算法性能表现 - 在**高维连续控制Adroit机械臂任务**中,面对极其稀疏的奖励,MAGE实现了显著的性能提升,大幅优于对比方法 [19] - 在强调子目标执行顺序的**Franka Kitchen组合任务**中,MAGE以相当大的优势超越了所有竞争算法 [19] - 在**迷宫导航任务**中,MAGE在所有数据集上均取得了最佳性能,证明了其处理长序列导航任务的卓越能力 [20] 推理效率与部署潜力 - MAGE实现了出色的计算效率平衡,其运行速度比Hierarchical Diffuser快约**50倍**,比Decision Diffuser快**80倍** [21] - MAGE的每步推理时间保持在**27.30±0.69毫秒**,满足了真实机器人控制所要求的**20 Hz实时运行门槛** [21]