Workflow
分层离线强化学习
icon
搜索文档
北航团队提出新的离线分层扩散框架:基于结构信息原理,实现稳定离线策略学习|NeurIPS 2025
AI前线· 2025-10-09 12:48
研究背景与动机 - 离线强化学习的核心挑战在于如何仅利用固定的历史数据集训练有效策略,而扩散模型通过将策略学习重构为条件轨迹生成任务,能有效缓解分布外状态和动作导致的“外推误差”问题[3] - 为提升长时序任务效率,分层策略被引入扩散模型,但现有方法存在固定两层扩散层次结构和单一预定义时间尺度的局限,限制了其对不同任务复杂性的适应性和决策灵活性[2][3] - 这提出了一个核心开放性挑战:如何系统地分析历史轨迹,以构建一个既可泛化又具有任务感知能力的扩散层级结构[3] SIHD框架核心设计 - SIHD框架从层级构建、条件扩散和正则化探索三个方面进行创新设计,以应对现有方法的局限性[5] - 框架通过分析离线轨迹中内嵌的“结构信息”,自适应地构建一个多尺度的扩散层级,从而在具有稀疏奖励的长时序环境中实现高效、稳定的离线策略学习[2] - 其核心设计旨在克服固定层级结构和单一时间尺度的刚性限制,提升决策性能和灵活性[6] 基于结构信息的多尺度扩散层级构建 - SIHD首先从离线数据集中提取所有状态元素,并基于特征相似度构建一个k-近邻状态图[8] - 接着应用结构信息原理,通过HCSE优化算法最小化K-维结构熵,从而获得一个最优的树状编码结构,该树的每一层都代表了在不同粒度上对状态空间的划分[8] - 基于定义的社群结构,SIHD能够为每一条历史轨迹进行自适应的层级分割,确保每个片段内的状态都属于同一个社群,并将每个片段的末端状态定义为该层的子目标[8] - 这一过程使得SIHD能够从数据中自动推断出不同任务的动态时间尺度,构建出一个灵活的多尺度扩散层级[9] 基于结构信息增益的条件扩散模型 - 在SIHD中,每一层的扩散模型都由其上一层的子目标序列进行引导,但创造性地使用结构信息增益作为引导信号,而非传统方法依赖的局部奖励信号[10] - 对于层级中的子序列,其条件输入被定义为对应状态社群的结构信息增益,该增益项量化了从高层级社群过渡到更具体子社群所获得的“信息量”[10] - 这种引导方式不直接依赖于可能稀疏或有噪声的奖励函数,从而使生成过程更加稳定和鲁棒[10] 结构熵正则化器 - SIHD引入了一个结构熵正则化器,旨在缓解对有限离线数据集的过分依赖并鼓励有效探索[11] - 该正则化项通过最大化状态分布的香农熵来鼓励策略探索数据集中覆盖不足的状态区域,同时通过最小化在每个层级的社群划分上的结构熵来约束策略不会过度偏离由编码的行为模式,从而减轻分布偏移带来的风险[12] - 最终的训练目标函数将扩散模型的标准损失与这个正则化项结合起来,尤其是在底层的动作生成模型中,以实现探索与利用的平衡[12] 实验结果与分析 - 在D4RL Gym-MuJoCo基准测试中,SIHD在HalfCheetah、Hopper和Walker2D任务上均取得了最优的平均回报,相较于HDMI和HD等先进分层基线表现出更强的泛化能力[16][17] - 在中低质量的"Medium"和"Medium-Replay"数据集上,SIHD的性能优势尤为突出,平均提升分别达到3.8%和3.9%,验证了结构熵正则化器在缓解数据质量依赖方面的有效性[17] - 在奖励稀疏且对长时序规划要求更高的Maze2D和AntMaze任务中,SIHD的优势更加显著,在所有导航任务的数据集上均实现了最佳性能,平均奖励在单任务Maze2D、多任务Maze2D和AntMaze上分别领先8.3%、7.4%和4.4%[19][22] - 在AntMaze-Large数据集上,SIHD的得分为89.4,显著高于次优方法HD的83.6,并展现了卓越的鲁棒性,在数据质量下降时,其性能降幅被控制在17.1%以内,而基线方法最大降幅可达27.4%[22] 消融研究 - 消融研究证实了SIHD各个组件的必要性,尤其是自适应多尺度层级(SIHD-DH),它的缺失会导致最严重的性能下降,特别是在长时序任务中[21] - 研究结果表明,基于结构信息的自适应层级构建、结构信息增益的条件引导以及结构熵正则化探索共同贡献了SIHD框架的卓越性能[21][23]