自动驾驶技术进展 - 自动驾驶技术近年来取得显著进展,使车辆能够在复杂环境中导航,但将感知、预测和规划等模块整合成完整驾驶行为仍具挑战性[4] - 轨迹规划是核心挑战,需生成可行、安全且高效的运动轨迹[4] - 传统模块化方法易累积误差,端到端方法泛化能力不足,难以建模复杂驾驶决策的多模态性[6] EvaDrive框架创新 - EvaDrive提出全新多目标强化学习框架,通过对抗性优化在轨迹生成和评测间建立闭环协同进化[2] - 框架将轨迹规划表述为多轮对抗游戏,分层生成器结合自回归意图建模和基于扩散的优化[8] - 可训练多目标critic对候选路径进行严格评测,保留多样化偏好结构而非压缩为单一标量[8] 技术实现细节 - 分层规划器包含自回归意图生成器(捕捉时间因果关系)和基于扩散的优化器(提供空间灵活性)[20] - 采用去噪扩散隐式模型(DDIM)实现单步去噪,显著提升计算效率满足实时部署需求[21] - 多轮优化机制通过帕累托前沿选择避免局部最优,支持动态环境中的自适应规划[25][26] 性能表现 - 在NAVSIM v1基准测试中达到94.9 PDMS,超过DiffusionDrive 6.8分,DriveSuprim 5.0分[37] - 在Bench2Drive闭环测试中获得64.96驾驶分数,验证框架的闭环能力[37] - 通过动态加权可生成多样化驾驶风格(保守型/激进型)而无需外部偏好数据[37] 技术对比优势 - 传统生成-评测框架缺乏闭环交互,强化学习方法将多维偏好压缩为标量奖励[7] - EvaDrive首创将多轮多目标强化学习与对抗性策略优化(APO)结合用于轨迹优化[12] - 消融实验显示完整框架比基础模仿学习基线PDMS提升11.8分(83.1→94.9)[38][39] 行业应用价值 - 该方法为自动驾驶领域提供首个在开环/闭环设置中均能实现无标量化、偏好感知轨迹优化的解决方案[42] - 结构化非标量奖励模型避免传统方法的标量化偏差和标注噪声问题[42] - 技术路线可扩展至其他需要多目标决策的智能系统领域[12]
GRPO并非最优解?EvaDrive:全新RL算法APO,类人端到端更进一步(新加坡国立)
自动驾驶之心·2025-08-15 07:33