W.A.L.T
搜索文档
Waymo提出Drive&Gen:用生成视频评估端到端自动驾驶(IROS'25)
自动驾驶之心· 2025-10-13 07:33
文章核心观点 - 自动驾驶领域出现新范式,即端到端驾驶模型与视频生成模型的结合,旨在解决彼此的评估和性能提升难题 [3] - Waymo、谷歌DeepMind与约翰霍普金斯大学联合提出Drive&Gen框架,通过协同评估方法连接驾驶与生成模型,实现双向赋能 [3][6] - 该框架证明高质量合成数据能有效诊断并提升E2E规划器的泛化能力,尤其在分布外场景下性能提升显著 [17][21][23][24] 技术框架与原理 - Drive&Gen框架包含一个可控的视频生成模型和一个E2E驾驶规划器,核心思想是"协同评估" [8] - 视频生成模型基于W A L T视频扩散模型扩展,能通过场景布局和运行条件等丰富控制信号生成高度定制化驾驶视频 [9][11] - 提出全新评估指标"行为置换检验",通过比较规划器在真实与生成视频上的轨迹集合差异来量化生成视频的真实性 [13] - BPT指标比传统FVD和ADE更能捕捉影响驾驶决策的关键差异,例如当移除车辆边界框信息时,BPT和ADE显著恶化而FVD变化不大 [14][16] 实验验证与性能提升 - 在相同条件下,生成视频能让规划器产生与真实视频相似的轨迹预测,BPT失败拒绝率达到69 62%,接近95%的理论上限 [18][19] - 利用合成数据微调E2E规划器后,整体性能提升:在真实验证集上的5秒平均位移误差从0 7548降低至0 7333 [21][22] - 在雨天分布外场景中,性能提升明显,ADE@5s从0 8536降低到0 8382 [23] - 在夜间场景下,ADE@5s从0 7372降低到0 7101 [24] - 定性结果显示,经合成数据微调后模型能做出更果断安全的驾驶决策,如减少绿灯前犹豫停车和绕行迟缓等问题 [25] 行业影响与前景 - 高质量可控合成数据被证明是极具成本效益的方案,能有效弥补真实世界数据不足,帮助拓展自动驾驶运行设计域 [26] - 该研究为生成式AI赋能自动驾驶研发提供了系统性评估和优化方法论,推动在虚拟世界中训练和测试自动驾驶的进程 [26]