DIVER
搜索文档
北交&地平线提出DIVER:扩散+强化的多模态规划新框架
自动驾驶之心· 2025-12-17 11:18
文章核心观点 - 当前主流端到端自动驾驶系统存在模仿学习范式导致的“模式坍塌”问题,即模型倾向于生成高度聚集在单一专家轨迹附近的行为,缺乏真正有意义的行为多样性,限制了在复杂场景下的决策能力 [2][7] - 研究团队提出了一种名为DIVER的新型多模态规划框架,该框架将扩散模型的多模态生成能力与强化学习的目标约束机制相结合,将轨迹生成从“单一模仿回归问题”转化为“在安全与多样性约束下的策略生成问题” [3][9] - DIVER框架在多个公开基准测试中表现优异,在显著提升轨迹多样性的同时保持了低碰撞率,展现出更强的复杂场景适应能力,为构建更灵活、更接近人类决策的自动驾驶系统提供了新的技术路径 [3][33][34] 研究背景与问题 - 端到端自动驾驶系统在真实测试中表现出行为过于保守和模式单一的问题,难以应对复杂交通场景 [5] - 问题的根源在于主流方法依赖单一专家示范的模仿学习范式,模型被迫去拟合一条“唯一正确”的专家轨迹,即使引入多模态规划,生成的候选轨迹也高度聚集在真实轨迹附近,缺乏真正的行为多样性 [2][6][7] - 人类驾驶在相同场景下会展现出减速、并线、绕行或等待等多种行为,当前模型缺乏这种在行为多样性与安全约束之间取得平衡的能力 [8] DIVER框架核心技术 - 核心思想是不再把轨迹生成当作拟合真实轨迹的回归问题,而是当作在安全与多样性约束下的策略生成问题 [11][12] - 框架构建了“扩散生成 + 强化学习优化”的完整流程,主要包括:策略感知扩散生成器、参考真实轨迹引导的多模态扩散、以及基于GRPO的强化学习优化 [11][12] - 策略感知扩散生成器是核心模块,它在扩散去噪过程中引入地图、动态物体、参考轨迹等条件信息,使生成的每条轨迹都具备清晰语义与可行性 [16][18] - 采用多参考真实轨迹引导机制,从专家轨迹中构建多个参考真实轨迹,并使用匈牙利匹配进行一对一监督,为每个预测模式明确赋予一种驾驶意图,从源头上避免模式坍塌 [20][21] - 采用分组相对策略优化强化学习方法,为生成的轨迹引入多样性、安全、轨迹一致性与车道保持等多种轨迹级奖励,确保在探索多样性的同时保持驾驶质量 [22] 性能评估与结果 - 在Bench2Drive闭环评测中,DIVER在多项关键指标上显著优于UniAD、VAD、SparseDrive、DiffusionDrive等方法 [28] - 在Turning-nuScenes数据集的评测中,DIVER的轨迹多样性显著更高,同时碰撞率最低。例如,在平均多样性指标上达到0.31,优于对比方法的0.21、0.23和0.20;平均碰撞率为0.27%,低于对比方法的0.40%、0.34%和0.32% [29][30][31] - 在nuScenes验证集的6秒长时预测任务中,DIVER在多样性上大幅领先,同时保持最低碰撞率。例如,在3秒时多样性为0.75,碰撞率为1.91%,均优于对比方法 [32] - 文章总结DIVER展示了显著更高的轨迹多样性、更低的碰撞率、更稳定的长时规划能力以及更强的复杂场景泛化能力 [33][36]