刷新NAVSIM SOTA,复旦提出端到端自动驾驶新框架
具身智能之心·2025-12-26 08:55

文章核心观点 - 端到端自动驾驶的范式正从模块化向VLA模型主导的“大一统”转变,但主流自回归生成范式存在局限性,其强制性的“从左到右”时序逻辑与人类“以终为始”的驾驶直觉不符,且基于模仿学习的模型易陷入“平均司机”陷阱 [1] - 复旦大学与引望智能联合提出的WAM-Diff框架,通过引入离散掩码扩散模型、结合稀疏混合专家架构与在线强化学习,构建了一套非自回归的生成式规划系统,有效解决了上述痛点 [2] - WAM-Diff在权威评测基准NAVSIM上取得了最先进的成绩,证明了非自回归生成范式在复杂自动驾驶场景下的巨大潜力,是通往高阶自动驾驶的关键技术探索 [2][25] 技术框架与核心创新 - 生成逻辑重构:WAM-Diff的核心创新在于重新思考生成逻辑,采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有Token,实现了全局优化,摆脱了自回归模型单向时序的束缚 [4][5] - 动作表示离散化:框架引入了混合离散动作分词技术,将连续的2D轨迹坐标量化为高精度离散Token,并与驾驶指令的语义Token置于共享词表中,实现了在统一特征空间内的理解与规划 [5] - “以终为始”的解码策略:通过探索因果序、反因果序和随机序三种解码策略,发现反因果序策略表现最佳,即先确定远期驾驶意图再反推近期动作,从模型层面验证了人类驾驶员的直觉思维,并取得了91.0的PDMS最高分 [9][20][21] 模型架构与训练优化 - 稀疏混合专家网络:通过集成LoRA-MoE架构,模型包含64个轻量级专家,能根据场景动态路由与稀疏激活,在控制计算开销的同时显著提升了模型容量与场景适应性 [12] - 多任务联合训练:模型通过驾驶VQA等任务进行联合训练,使专家网络不仅掌握驾驶技能,更理解决策背后的因果逻辑,增强了规划的可解释性与泛化能力 [12] - 在线强化学习优化:引入了分组序列策略优化算法,将优化粒度从单步Token提升至完整轨迹序列,依据安全性、合规性及舒适性等多维指标对整条轨迹评分,引导模型生成更安全、更规范的规划结果 [14] 性能表现与实验结果 - NAVSIM-v1基准测试:WAM-Diff取得了91.0的PDMS分数,超越了DiffusionDrive、ReCogDrive以及DriveVLA-W0等主流基线模型 [16][17] - NAVSIM-v2基准测试:在引入了更严格指标的v2测试中,模型取得了89.7的EPDMS成绩,相较于DiffusionDrive提升了5.2分,证明了其在平衡安全性、合规性与舒适性方面的稳健性 [18][19] - 消融研究验证:对解码策略的消融研究证实,反因果序策略取得了最佳的闭环性能,支持了“以终为始”规划直觉的有效性 [20][21] - 定性分析:可视化结果展示了模型在复杂博弈场景下的稳定性,验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用 [22]