以DiffusionDriveV2为例,解析自动驾驶中强化学习的使用
自动驾驶之心·2026-01-20 17:03

文章核心观点 - 强化学习是解决端到端自动驾驶中模仿学习无法处理问题(如居中驾驶)的关键技术 [1] - 文章以DiffusionDriveV2为例,深入解读了PPO和GRPO等强化学习算法在自动驾驶轨迹生成中的应用与改进 [2][5][6] 强化学习在自动驾驶中的重要性 - 自动驾驶进入端到端阶段后,需要强化学习来解决模仿学习无法处理的问题,例如车辆居中行驶 [1] - 强化学习是后训练不可或缺的一部分,其热度因大模型发展而提升 [1] 主流强化学习算法:PPO与GRPO - PPO CLIP是最经典的PPO算法,其损失函数通过裁剪策略比例来稳定训练 [2][3] - 在自动驾驶中,对动作的评价是针对整个轨迹的质量,而非单个路径点 [3] - 优势函数A反映了当前决策相对于平均预期奖励的好坏,比单纯使用奖励更稳定,能避免不同场景间奖励方差过大的问题 [4] - GRPO的主要改进在于使用当前策略生成多个轨迹的平均奖励来估计价值函数V,而非使用Critic模型 [4][9] DiffusionDriveV2的强化学习损失函数 - 损失函数由三部分组成:DiffusionDrive的多个锚点设计、GRPO的组设计以及扩散模型的去噪过程 [9] - 锚点设计是DiffusionDrive V1的核心,用于生成多样化的轨迹 [9] - GRPO的组概念被修改,每个锚点拥有独立的组,以避免不同驾驶行为的数据相互压制 [11][12] - 组内优势的计算方式为:某个轨迹的奖励减去组内所有轨迹奖励的均值,再除以组内奖励的标准差 [12] - 引入了锚点间GRPO,对不同锚点的优势进行进一步优化,以避免优化方向坍塌 [13][14] DiffusionDriveV2的其他技术改进 - 轨迹加噪采用横向和纵向分别设定尺度的方法,以确保加噪后的轨迹保持正常 [15] - 新版本终于包含了模型选择器 [15] 当前挑战与未来展望 - 目前量产应用中,强化学习训练多为单步且作用于整个轨迹,因为端到端的闭环仿真在生成效率和质量上尚不足以支撑训练 [3] - 自动驾驶中的强化学习技术远未成熟,单步约束与模仿学习的区别有限,期待未来闭环仿真技术的进步带来更深入的强化学习应用 [15]