刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架
机器之心·2025-12-25 11:12

行业技术范式转移 - 端到端自动驾驶正经历从“模块化”向“大一统”的范式转移,VLA模型兴起[2] - 主流自回归生成范式存在局限性,其“从左到右”的时序逻辑与人类驾驶员“以终为始”的思维直觉存在本质差异[2] - 基于模仿学习的模型易陷入“平均司机”陷阱,倾向于拟合数据分布均值,导致策略平庸化,难以在激进与保守间灵活切换[2] 核心解决方案:WAM-Diff框架 - 复旦大学与引望智能联合提出WAM-Diff框架,旨在解决现有痛点[2] - 框架创新性地将离散掩码扩散模型引入VLA自动驾驶规划,并结合稀疏混合专家架构与在线强化学习[2] - 构建了一套不再受限于单向时序的生成式规划系统[2] 核心技术创新:生成逻辑与架构 - 引入混合离散动作分词技术,将连续2D轨迹坐标量化为高精度离散Token,误差控制在0.005以内,并与语义Token置于共享词表[6] - 采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有位置Token,提升推理效率与全局优化能力[6] - 集成LoRA-MoE架构,包含64个轻量级专家,通过门控网络实现动态路由与稀疏激活,根据场景自动激活最匹配专家以提升容量与适应性[11] - 采用多任务联合训练策略,使模型在学习轨迹预测同时通过驾驶VQA任务理解场景语义,增强规划可解释性与泛化能力[11] 核心技术创新:规划策略与优化 - 探索因果序、反因果序和随机序三种解码调度策略,实验发现反因果序策略在闭环指标上表现最佳[9] - 反因果序策略验证了“以终为始”的生成逻辑,即先确定终点状态再倒推轨迹细节,能显著提升规划一致性与安全性[9] - 引入分组序列策略优化算法,将优化粒度从“单步Token”提升至“完整轨迹序列”,依据安全、合规及舒适等多维指标对整条轨迹评分[14] - GSPO通过计算组内相对优势,显式引导模型向“高安全、高舒适”区域更新,确保规划结果比人类驾驶数据更安全规范[14] 性能表现与实验结果 - 在NAVSIM-v1评测基准上取得91.0 PDMS的SOTA成绩[3][16] - 在NAVSIM-v2评测基准上取得89.7 EPDMS的SOTA成绩,相较于DiffusionDrive提升5.2分[3][18] - 在NAVSIM-v1详细对比中,多项指标领先:NC 99.1, DAC 98.3, TTC 96.5, Comf. 99.9, EP 84.4, PDMS 91.0[17] - 在NAVSIM-v2详细对比中,多项指标领先:NC 99.0, DAC 98.4, DDC 99.3, TLC 99.9, EP 87.0, TTC 98.6, EPDMS 89.7[19] - 消融研究证实反因果序解码策略取得最佳闭环性能(91.0 PDMS),支持“以终为始”的规划直觉[20][21] - 定性实验验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用[22] 行业意义与影响 - WAM-Diff标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出重要一步[25] - 该框架通过Masked Diffusion重构时序生成逻辑,利用MoE解决策略单一性瓶颈,通过RL守住安全底线[25] - 证明了在VLA时代,“如何生成”与“生成什么”同样重要[25] - 这种具备反向推理能力且风格多变的规划器,被认为是通往L4级自动驾驶的关键拼图[25]