因果混淆(Causal Confusion)
搜索文档
RAD:通过3DGS结合强化学习的端到端自动驾驶
自动驾驶之心· 2025-10-31 08:06
文章核心观点 - 论文提出了一种名为RAD的新方法,通过结合3D高斯溅射技术和强化学习与模仿学习的协同训练,以解决端到端自动驾驶算法在现实部署中面临的因果混淆和开环差距问题 [1][2][24] - 该方法在逼真的3DGS环境中进行闭环强化学习训练,使自动驾驶策略能通过大规模试错学习处理分布外场景,并在碰撞率等关键安全指标上显著优于现有模仿学习方法 [2][9][15] - RAD框架采用三阶段训练范式,并设计了专门的安全奖励函数和辅助目标,以在提升安全性的同时保持与人类驾驶行为的一致性 [8][9][11] 相关研究背景 - 现有基于模仿学习的端到端自动驾驶算法主要学习状态与动作的相关性,而非因果关系,导致策略难以识别规划决策的真正因果因素,出现“捷径学习”现象 [1][6] - 模仿学习训练数据主要覆盖常见驾驶行为,对长尾分布中的安全关键事件覆盖不足,使得策略在面对碰撞等场景时缺乏敏感性 [6] - 开环训练与闭环部署之间存在差距,模仿学习策略在训练时未见过的场景中表现不佳,存在误差累积问题 [2] 研究方法与技术方案 - 利用3D高斯溅射技术构建真实物理世界的逼真数字副本,为自动驾驶策略提供可进行大规模交互训练的虚拟环境 [2][11] - 设计了由动态碰撞奖励、静态碰撞奖励、位置偏差奖励和航向偏差奖励四部分组成的综合安全奖励函数,以引导策略学习安全驾驶行为 [11] - 将模仿学习作为强化学习训练中的正则化项,使策略在利用强化学习增强因果关系建模和缩小开环差距的同时,保持与人类驾驶行为的一致性 [2][11] - 采用三阶段训练范式:感知预训练、规划预训练和强化后训练,逐步优化自动驾驶策略 [11] 实验设置与评估结果 - 实验基于2000小时的真实世界人类专家驾驶演示数据,并从中选取4305个高碰撞风险的密集交通片段重建为3DGS环境,其中3968个用于训练,337个用于评估 [15] - 使用九个关键指标进行评估,包括动态碰撞比率、静态碰撞比率、位置偏差比率、航向偏差比率、平均偏差距离以及纵向/横向抖动等 [15] - 消融研究表明,当强化学习与模仿学习的训练步骤比例为4:1时,策略在安全性和轨迹一致性之间达到最佳平衡 [15] - 与现有模仿学习方法相比,RAD在碰撞比率指标上实现了3倍的降低,显著提升了安全性 [9][15] 性能优势与定性结果 - 在定性比较中,仅基于模仿学习的策略在动态环境中表现不佳,经常无法避免与移动障碍物的碰撞,而RAD能够持续良好地处理复杂交通情况 [15] - RAD在绕行、密集交通中爬行、交通拥堵和U型转弯等多种驾驶场景下均能生成更平滑的轨迹,并展现出更强的碰撞避免能力 [16] 未来研究方向 - 当前3DGS环境中的其他交通参与者以非交互式日志回放方式运行,未来可开发能实时响应自车行为的高级交互环境 [17][21] - 3DGS技术在渲染非刚体、未观测视图和低光照场景方面仍有改进空间,需研究更先进的渲染技术 [17][21] - 可探索多智能体强化学习或元强化学习来进一步提升训练效率和策略的泛化能力 [18][21] - 通过结合行为克隆、逆强化学习或人类反馈学习,可增强自动驾驶策略与人类驾驶行为的一致性 [19][21]