多尺度自回归生成 - 财报，业绩电话会，研报，新闻

多尺度自回归生成

搜索文档

量子位· 2026-04-06 13:25

文章核心观点 - 厦门大学与香港科技大学的研究团队提出了一种名为MAGE的新型离线强化学习算法，旨在解决现有生成式方法在复杂连续任务长程规划中存在的“局部合理但全局偏航”问题 [1][2][5] - MAGE采用“自顶向下、由粗到细”的生成策略，通过多尺度建模先规划宏观轨迹轮廓，再逐步细化微观动作，从而生成全局连贯且可控的高回报轨迹 [6][7][12][22] 现有算法缺陷 - 在需要长程空间理解的“迷宫吃金币”实验中，现有模型暴露了全局规划缺陷 [10][11] - Decision Transformer因单向自回归特性导致全局上下文缺失，在长程规划中迷失方向，未能抵达终点 [17] - Decision Diffuser因扩散模型的局部生成偏差，轨迹仅局部合理，遗漏关键目标（金币） [17] - Hierarchical Diffuser因其固定的双层结构僵硬，高低层策略协同不足，导致轨迹出现物理违规（如“穿墙”） [17] MAGE算法核心机制 - 核心思路是“自顶向下、由粗到细”，类比于先画素描轮廓再细化细节 [7][8] - 包含两大核心模块：MTAE多尺度轨迹自编码器，将长序列轨迹转化为从粗到细的多尺度离散Token，粗尺度掌控全局结构，细尺度建模短期细节 [16] - 多尺度条件引导自回归生成：使用Transformer序列化生成多尺度Token，并以“目标回报”和“初始状态”为条件进行约束，确保朝向最终目标 [16] - 条件引导细化与动作决策：通过集成适配器模块和引入条件引导损失函数，强制解码出的初始状态与真实环境精确对齐，最后通过潜在逆动力学模型决定最终动作 [16] 算法性能表现 - 在**高维连续控制Adroit机械臂任务**中，面对极其稀疏的奖励，MAGE实现了显著的性能提升，大幅优于对比方法 [19] - 在强调子目标执行顺序的**Franka Kitchen组合任务**中，MAGE以相当大的优势超越了所有竞争算法 [19] - 在**迷宫导航任务**中，MAGE在所有数据集上均取得了最佳性能，证明了其处理长序列导航任务的卓越能力 [20] 推理效率与部署潜力 - MAGE实现了出色的计算效率平衡，其运行速度比Hierarchical Diffuser快约**50倍**，比Decision Diffuser快**80倍** [21] - MAGE的每步推理时间保持在**27.30±0.69毫秒**，满足了真实机器人控制所要求的**20 Hz实时运行门槛** [21]