ICLR2026｜山大、理想汽车和中科院联合提出离线强化学习新范式：让Transformer学会「去其糟粕」

核心技术突破：PRGS框架 - 针对离线强化学习中训练数据固定、质量不均且传统方法（如Decision Transformer）以“整条轨迹”为学习单位导致局部有效动作被整体低回报“稀释”的痛点，山东大学、中科院、理想汽车与清华大学的研究团队联合提出了名为PRGS（Peak-Return Greedy Slicing）的新框架[2][3] - PRGS框架的目标是在不改变离线数据来源的前提下，从原始轨迹中自动筛选出更有学习价值的子轨迹用于训练，并在推理阶段避免“糟糕历史”对当前决策的干扰[3] - 该框架包含三个核心模块：1）基于最大均值差异的回报估计器，用于预测状态-动作对的潜在回报分布并获得乐观的回报估计值；2）贪心子轨迹切片，围绕轨迹中的峰值回报点进行递归切片，提取高质量子轨迹；3）推理时的自适应历史截断机制，当评估发现当前状态比历史更有前途时，会丢弃历史上下文以优化决策[11][16][19] 性能表现与实验验证 - 在D4RL、BabyAI等主流基准测试中，PRGS不仅超越了各种基线方法，更让Transformer类离线RL方法的平均性能提升了15.8%[4] - 在D4RL的Maze2D-Large迷宫任务中，应用了PRGS的DT-PRGS模型得分高达127.5，而原始Decision Transformer模型得分不到30分，展现了在需要极强“缝合能力”的复杂场景中的显著优势[22] - 在真实业务场景测试中，于阿里妈妈开源的广告竞价数据集AuctionNet上，应用了PRGS的行为克隆算法在多个周期内实现了显著的利润提升，例如BC-PRGS相比BC平均提升了9.1（从269.9提升至279.0）[25][27] 学术价值与行业影响 - 该研究成果已获接收于国际顶级机器学习会议ICLR 2026，该会议有效投稿接近19000篇，接收率约为28%，体现了其学术认可度[4] - PRGS的成功证明了在离线强化学习中，数据质量（“精”）与数据数量（“多”）同等重要，其技术框架为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考[28] - 该方法的核心逻辑模仿了人类从失败经历中学习最佳片段的过程，通过精细化操作到时间步级别，解决了传统方法粒度偏粗和缝合能力缺失的问题[15][13]