理想分享自动驾驶强化学习闭环训练框架
理想TOP2·2025-11-28 00:10

论文核心观点 - 论文AD-R1旨在通过闭环强化学习提升端到端自动驾驶的安全性与鲁棒性 解决现有世界模型无法正确预测危险后果的系统性缺陷[2] - 核心创新在于提出公正世界模型和基于未来想象的强化学习框架 以解决模仿学习的分布偏移和缺乏负反馈问题[3][4] 自动驾驶技术范式对比 - 开环系统基于离线数据静态回放 算法决策与环境状态解耦 无法改变历史[1] - 闭环系统在动态仿真中实现车辆操作与环境的实时交互 并改变后续时空轨迹[1] 现有技术缺陷分析 - 模仿学习存在分布偏移问题 难以应对训练数据未覆盖的长尾场景[3] - 缺乏负反馈机制 导致AI无法从数据中学习危险行为的后果[3] - 现有世界模型存在乐观偏差 会对不安全动作产生幻觉 如让障碍物消失或改变路面属性以维持预测连贯性[3] AD-R1框架核心技术 - 训练公正世界模型作为诚实裁判 通过反事实数据合成将安全数据转化为车祸数据 教会模型理解危险行为的真实后果[4] - 采用轨迹感知门控技术 通过掩码强制模型关注指令路径上的特征 防止忽略障碍物[6] - 引入自车保真度损失作为惩罚项 防止模型在预测未来时擅自改变自车轨迹 确保其只预测不行动[6] 强化学习训练流程 - 策略网络首先生成候选轨迹(如10条)[8] - 轨迹输入公正世界模型(梦境引擎)预测未来4D占用网格[7][8] - 基于预测未来计算奖励 使用GRPO算法通过对比轨迹优劣更新策略 无需额外价值网络[8] 三维空间精细化评估 - 利用世界模型输出的3D/4D体素数据 计算比传统BEV方法更细致的奖励函数[8] - 体积碰撞惩罚通过重叠体积量化碰撞严重程度 而不仅是二元判断[8] - 垂向间隙惩罚检测隧道顶部或限高杆碰撞风险(2D BEV无法实现)[8] - 路面稳定性奖励确保车辆行驶在平坦路面 避免骑压马路牙子[8]