行业技术范式转移 - 端到端自动驾驶正经历从模块化向大一统的范式转移,VLA模型兴起[3] - 主流自回归生成范式存在局限性,其强制遵循的从左到时序生成逻辑与人类驾驶员以终为始的思维直觉存在本质差异[3] - 基于模仿学习的模型容易陷入平均司机陷阱,倾向于拟合数据分布均值,导致策略平庸化,难以在激进与保守间灵活切换[3] 核心技术创新:WAM-Diff框架 - 复旦大学与引望智能联合提出WAM-Diff框架,将离散掩码扩散模型引入VLA自动驾驶规划[3] - 框架结合稀疏混合专家架构与在线强化学习,构建了一套不受限于单向时序的生成式规划系统[3] - 在NAVSIM-v1和v2榜单上分别取得91.0 PDMS和89.7 EPDMS的SOTA成绩,证明了非自回归范式的潜力[4] 技术细节:生成逻辑与架构 - 采用混合离散动作分词技术,将连续2D轨迹坐标量化为高精度离散Token,误差控制在0.005以内,并与语义Token置于共享词表[6] - 使用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有位置Token,提升推理效率与全局优化能力[6] - 探索因果序、反因果序和随机序三种解码策略,实验发现反因果序策略在闭环指标上表现最佳,验证了以终为始生成逻辑的有效性[9] 模型架构增强 - 集成LoRA-MoE架构,包含64个轻量级专家,通过门控网络实现动态路由与稀疏激活,根据场景自动激活最匹配的驾驶专家[12] - 采用多任务联合训练,使模型在学习轨迹预测的同时通过驾驶VQA任务理解场景语义,增强规划的可解释性与泛化能力[12] - 引入分组序列策略优化算法,将优化粒度从单步Token提升至完整轨迹序列,依据安全性、合规性及舒适性等多维指标对整条轨迹进行评分[14] 性能表现与实验验证 - 在NAVSIM-v1评测中,WAM-Diff达到91.0的PDMS分数,超越DiffusionDrive、ReCogDrive及DriveVLA-W0等基线模型[16][17] - 在NAVSIM-v2评测中,取得89.7的EPDMS成绩,相较于DiffusionDrive提升了5.2分,表明其能有效平衡安全性与合规性[18][19] - 消融研究表明,反因果序解码策略取得最佳闭环性能,PDMS为91.0,支持以终为始的规划直觉[20][21] - 定性实验验证了MoE架构与GSPO在线强化学习在提升长尾场景鲁棒性方面的作用[22] 行业意义与展望 - WAM-Diff标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出重要一步[26] - 该研究证明在VLA时代,如何生成与生成什么同样重要,具备反向推理能力的规划器可能是通往L4级自动驾驶的关键拼图[26]
刷新NAVSIM SOTA!端到端自动驾驶新框架Masked Diffusion
自动驾驶之心·2025-12-26 11:32