核心技术突破:PRGS框架 - 针对离线强化学习中训练数据固定、质量不均且传统方法(如Decision Transformer)以“整条轨迹”为学习单位导致局部有效动作被整体低回报“稀释”的痛点,山东大学、中科院、理想汽车与清华大学的研究团队联合提出了名为PRGS(Peak-Return Greedy Slicing)的新框架[2][3] - PRGS框架的目标是在不改变离线数据来源的前提下,从原始轨迹中自动筛选出更有学习价值的子轨迹用于训练,并在推理阶段避免“糟糕历史”对当前决策的干扰[3] - 该框架包含三个核心模块:1)基于最大均值差异的回报估计器,用于预测状态-动作对的潜在回报分布并获得乐观的回报估计值;2)贪心子轨迹切片,围绕轨迹中的峰值回报点进行递归切片,提取高质量子轨迹;3)推理时的自适应历史截断机制,当评估发现当前状态比历史更有前途时,会丢弃历史上下文以优化决策[11][16][19] 性能表现与实验验证 - 在D4RL、BabyAI等主流基准测试中,PRGS不仅超越了各种基线方法,更让Transformer类离线RL方法的平均性能提升了15.8%[4] - 在D4RL的Maze2D-Large迷宫任务中,应用了PRGS的DT-PRGS模型得分高达127.5,而原始Decision Transformer模型得分不到30分,展现了在需要极强“缝合能力”的复杂场景中的显著优势[22] - 在真实业务场景测试中,于阿里妈妈开源的广告竞价数据集AuctionNet上,应用了PRGS的行为克隆算法在多个周期内实现了显著的利润提升,例如BC-PRGS相比BC平均提升了9.1(从269.9提升至279.0)[25][27] 学术价值与行业影响 - 该研究成果已获接收于国际顶级机器学习会议ICLR 2026,该会议有效投稿接近19000篇,接收率约为28%,体现了其学术认可度[4] - PRGS的成功证明了在离线强化学习中,数据质量(“精”)与数据数量(“多”)同等重要,其技术框架为自动驾驶、机器人控制等工业级应用提供了极具价值的技术参考[28] - 该方法的核心逻辑模仿了人类从失败经历中学习最佳片段的过程,通过精细化操作到时间步级别,解决了传统方法粒度偏粗和缝合能力缺失的问题[15][13]
ICLR2026|山大、理想汽车和中科院联合提出离线强化学习新范式:让Transformer学会「去其糟粕」
机器之心·2026-03-14 10:30