文章核心观点 - 由港大OpenDriveLab、同济大学等团队提出的PlannerRFT框架,是一种用于基于扩散模型的自动驾驶轨迹规划器的闭环、样本高效强化微调框架,旨在解决现有方法在强化微调中探索能力不足的问题,从而提升规划器的闭环性能、安全性和鲁棒性 [2][5][14] - 该框架通过策略引导去噪机制,实现了多模态和场景自适应的轨迹采样,为强化学习优化提供了更有效的探索信号 [5][8][13] - 为支持大规模并行训练,团队开发了名为nuMax的GPU加速仿真器,其轨迹推演速度较原生nuPlan仿真器快10倍 [2][6][24] - 在nuPlan基准测试上的实验表明,PlannerRFT取得了最先进的性能,特别是在包含动态交互的复杂场景中,规划安全性得到显著提升 [2][9][35] 背景与问题定义 - 基于扩散模型的规划器已成为生成类人驾驶轨迹的主流方法,但通过模仿学习预训练的模型存在分布偏移和目标错位问题,限制了其在真实场景中的鲁棒性 [4] - 近期研究尝试将强化微调融入扩散规划器以提升性能,但原生扩散模型存在模态坍缩问题,导致在去噪过程中生成的轨迹缺乏多样性,难以进行有效的多模态探索,阻碍了强化学习的优化效率 [4][5] - 有效的强化微调需要规划器具备两种关键能力:多模态(生成多样化操作假设)和适应性(根据场景自主调整探索分布)[4] PlannerRFT框架设计 - 双分支优化策略:框架采用“生成-评估”范式,在保持原始推理流程不变的前提下,通过一个专门的探索策略模块自适应地引导去噪过程,同时利用分组相对策略优化微调轨迹分布 [2][13] - 策略引导去噪:为生成多模态轨迹,引入了基于能量的分类器引导机制,通过注入残差偏移量,使模型能在参考轨迹附近生成多样化轨迹,引导信号分解为横向和纵向两个正交分量进行解耦控制 [8][15][17] - 探索策略设计:探索策略模块基于驾驶场景上下文和参考轨迹,学习预测用于调节横向和纵向引导尺度的Beta分布参数,实现场景自适应的轨迹采样 [18][19] - 轨迹采样:在强化微调阶段,从探索策略学习到的分布中重复采样引导尺度,每个采样对对应一种独特的驾驶模态,从而生成多样化的轨迹集合用于优化 [20] 训练基础设施与优化方法 - nuMax仿真器:为加速训练,开发了基于Waymax的GPU并行仿真器nuMax,其仿真速度较原生nuPlan仿真器快10倍,支持高通量并行轨迹推演,这对实现规模化强化学习训练至关重要 [6][24] - 三阶段训练流程:包括模仿学习预训练、模仿学习微调和强化学习微调,强化微调基于近端策略优化和分组相对策略优化实现 [6] - 生存奖励机制:为在复杂场景中稳定优化,引入了生存奖励,对非终端轨迹片段的奖励进行累积,鼓励规划器延迟失效事件的发生,从而提升长时域可行性和探索效果 [9][27] - 最佳实践:包括采用5步DDIM去噪以增强探索随机性、将探索策略初始化为生成零均值引导尺度、以及使用包含适度比例复杂场景的平衡数据集进行微调 [30][41] 实验结果与性能分析 - 主要性能提升:在nuPlan基准测试中,与预训练的Diffusion Planner相比,PlannerRFT在反应式交通设置的Val14基准测试上得分提升1.66分,在Test14-hard基准测试上提升2.99分 [35] - 与基线对比:PlannerRFT在四个基准测试中的三个取得了最佳整体性能,特别是在包含动态、高交互场景的Test14-hard非反应式数据集上,性能显著优于其他现有最优规划器 [36] - 行为模式演化:强化微调使规划器呈现出与模仿学习不同的行为模式,通过奖励导向优化,驾驶策略逐渐调整为更安全、高效的机动动作,例如从发生碰撞到保持安全,再到执行果断且安全的变道 [37] - 探索策略有效性:消融实验表明,与无引导、均匀分布采样或固定Beta分布采样相比,PlannerRFT提出的策略引导去噪在提升轨迹多样性的同时,实现了更高的闭环性能得分和更稳定的训练过程 [39][40] - 微调数据影响:实验发现,仅在碰撞场景上训练会导致性能下降,而在所有简单场景上训练提升有限,最佳结果来自于在结合了碰撞和低得分场景的平衡数据集上进行微调 [41] - 关键参数影响:奖励公式方面,生存奖励优于终端奖励;引导偏移量方面,适度的偏移量能在探索与利用之间取得最佳平衡 [43][46][47]
李弘扬团队PlannerRFT:扩散轨迹规划新方案,提升复杂驾驶场景性能(同济&港大)
自动驾驶之心·2026-01-21 17:16