Workflow
强化学习真的很适用于自动驾驶吗?
自动驾驶之心·2025-09-09 07:33

核心观点 - 论文提出GigaFlow强化学习框架 通过self-play方式在虚拟环境中训练自动驾驶策略 无需真实数据即可在CARLA nuPlan Waymax等基准测试中实现SOTA性能 [3][8][22] - 该方法使用纯虚拟数据训练 等效驾驶距离达16亿公里 训练成本低于每百万公里5美元 在8块A100 GPU上10天内完成训练 [21][25] - 模型参数规模较小(actor和critic各300万参数) 推理速度达每秒740万次决策 比实时快360,000倍 [21][25] 技术框架 - 环境设计采用8张地图的随机增强(伸缩/旋转/镜像) 最多支持150个交通参与者并行交互 所有参与者共享策略但具有不同驾驶风格参数 [14][17][21] - 观测空间包含静态道路点(黄色稀疏点)、道路边界(红色密集点)、动态交通参与者状态(尺寸/位置/方向/速度)及交通信号信息 [16] - 动作空间离散化为12个组合(横向jerk取值{-4,0,4} 纵向jerk取值{-15,-4,0,4}) [18] 奖励函数设计 - 包含目的地到达奖励 碰撞惩罚(公式:-Ocollision + 0.1v) 车道居中激励 闯红灯惩罚 加速度限制惩罚等10个组件 [12][15] - 奖励权重采用随机分布初始化(如碰撞惩罚权重U(0,3) 舒适性权重U(0.0,0.1))以模拟不同驾驶风格 [15][17] - 最终奖励为各组件加权和 权重参数作为agent条件输入 [18] 训练算法 - 使用PPO算法配合优势过滤(Advantage Filtering) 动态计算优势阈值(EMA衰减系数β=0.25)并丢弃低价值经验数据 [19][20] - 在8块A100 GPU上并行38,400个环境 批量大小260万 经验收集时带宽达740万决策/秒 [21] - 训练数据包含1万亿状态转移 等效9,500年主观驾驶经验(16亿公里) [25] 性能表现 - 在nuPlan测试中取得92%路线完成率 99%无碰撞率 93%进度得分 显著超过IDM、PlanCNN等基线方法 [26] - CARLA基准测试中碰撞率仅0.43% 违规率0.11% 进度完成率99.16% 接近专家演示水平 [28] - 模型能泛化到真实噪声环境 价值函数与人类直觉对齐(如转弯速度高时价值降低 靠近前车时价值下降) [22][32][34] 局限性 - 纯虚拟训练可能面临sim-to-real差异 依赖感知抽象结果而非原始传感器数据 [37] - 未融合真实数据模仿学习 传感器模拟可能降低训练效率 [36][37]