Workflow
离散掩码扩散模型
icon
搜索文档
刷新NAVSIM SOTA!端到端自动驾驶新框架Masked Diffusion
自动驾驶之心· 2025-12-26 11:32
来源 | 机器之心 原文链接: 刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 随着 VLA(Vision-Language-Action)模型的兴起,端到端自动驾驶正经历从「模块化」向「大一统」的范式转移。然而,将感知、推理与规划压缩进单一模型 后,主流的自回归(Auto-regressive)生成范式逐渐显露出局限性。现有的自回归模型强制遵循「从左到右」的时序生成逻辑,这与人类驾驶员的思维直觉存在本 质差异 —— 经验丰富的驾驶员在处理复杂路况时,往往采用「以终为始」的策略,即先确立长期的驾驶意图(如切入匝道、避让行人、靠边停靠),再反推当前 的短期操控动作。此外,基于模仿学习的模型容易陷入「平均司机」陷阱,倾向于拟合数据分布的均值,导致策略平庸化,难以在激进博弈与保守避让之间灵活切 换。 针对上述痛点, 复旦大学与引望智能联合提出了 WAM-Diff 框架 。该研究创新 ...
刷新NAVSIM SOTA,复旦提出端到端自动驾驶新框架
具身智能之心· 2025-12-26 08:55
文章核心观点 - 端到端自动驾驶的范式正从模块化向VLA模型主导的“大一统”转变,但主流自回归生成范式存在局限性,其强制性的“从左到右”时序逻辑与人类“以终为始”的驾驶直觉不符,且基于模仿学习的模型易陷入“平均司机”陷阱 [1] - 复旦大学与引望智能联合提出的WAM-Diff框架,通过引入离散掩码扩散模型、结合稀疏混合专家架构与在线强化学习,构建了一套非自回归的生成式规划系统,有效解决了上述痛点 [2] - WAM-Diff在权威评测基准NAVSIM上取得了最先进的成绩,证明了非自回归生成范式在复杂自动驾驶场景下的巨大潜力,是通往高阶自动驾驶的关键技术探索 [2][25] 技术框架与核心创新 - **生成逻辑重构**:WAM-Diff的核心创新在于重新思考生成逻辑,采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有Token,实现了全局优化,摆脱了自回归模型单向时序的束缚 [4][5] - **动作表示离散化**:框架引入了混合离散动作分词技术,将连续的2D轨迹坐标量化为高精度离散Token,并与驾驶指令的语义Token置于共享词表中,实现了在统一特征空间内的理解与规划 [5] - **“以终为始”的解码策略**:通过探索因果序、反因果序和随机序三种解码策略,发现反因果序策略表现最佳,即先确定远期驾驶意图再反推近期动作,从模型层面验证了人类驾驶员的直觉思维,并取得了91.0的PDMS最高分 [9][20][21] 模型架构与训练优化 - **稀疏混合专家网络**:通过集成LoRA-MoE架构,模型包含64个轻量级专家,能根据场景动态路由与稀疏激活,在控制计算开销的同时显著提升了模型容量与场景适应性 [12] - **多任务联合训练**:模型通过驾驶VQA等任务进行联合训练,使专家网络不仅掌握驾驶技能,更理解决策背后的因果逻辑,增强了规划的可解释性与泛化能力 [12] - **在线强化学习优化**:引入了分组序列策略优化算法,将优化粒度从单步Token提升至完整轨迹序列,依据安全性、合规性及舒适性等多维指标对整条轨迹评分,引导模型生成更安全、更规范的规划结果 [14] 性能表现与实验结果 - **NAVSIM-v1基准测试**:WAM-Diff取得了91.0的PDMS分数,超越了DiffusionDrive、ReCogDrive以及DriveVLA-W0等主流基线模型 [16][17] - **NAVSIM-v2基准测试**:在引入了更严格指标的v2测试中,模型取得了89.7的EPDMS成绩,相较于DiffusionDrive提升了5.2分,证明了其在平衡安全性、合规性与舒适性方面的稳健性 [18][19] - **消融研究验证**:对解码策略的消融研究证实,反因果序策略取得了最佳的闭环性能,支持了“以终为始”规划直觉的有效性 [20][21] - **定性分析**:可视化结果展示了模型在复杂博弈场景下的稳定性,验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用 [22]
刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架
机器之心· 2025-12-25 11:12
行业技术范式转移 - 端到端自动驾驶正经历从“模块化”向“大一统”的范式转移,VLA模型兴起[2] - 主流自回归生成范式存在局限性,其“从左到右”的时序逻辑与人类驾驶员“以终为始”的思维直觉存在本质差异[2] - 基于模仿学习的模型易陷入“平均司机”陷阱,倾向于拟合数据分布均值,导致策略平庸化,难以在激进与保守间灵活切换[2] 核心解决方案:WAM-Diff框架 - 复旦大学与引望智能联合提出WAM-Diff框架,旨在解决现有痛点[2] - 框架创新性地将离散掩码扩散模型引入VLA自动驾驶规划,并结合稀疏混合专家架构与在线强化学习[2] - 构建了一套不再受限于单向时序的生成式规划系统[2] 核心技术创新:生成逻辑与架构 - 引入混合离散动作分词技术,将连续2D轨迹坐标量化为高精度离散Token,误差控制在0.005以内,并与语义Token置于共享词表[6] - 采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有位置Token,提升推理效率与全局优化能力[6] - 集成LoRA-MoE架构,包含64个轻量级专家,通过门控网络实现动态路由与稀疏激活,根据场景自动激活最匹配专家以提升容量与适应性[11] - 采用多任务联合训练策略,使模型在学习轨迹预测同时通过驾驶VQA任务理解场景语义,增强规划可解释性与泛化能力[11] 核心技术创新:规划策略与优化 - 探索因果序、反因果序和随机序三种解码调度策略,实验发现反因果序策略在闭环指标上表现最佳[9] - 反因果序策略验证了“以终为始”的生成逻辑,即先确定终点状态再倒推轨迹细节,能显著提升规划一致性与安全性[9] - 引入分组序列策略优化算法,将优化粒度从“单步Token”提升至“完整轨迹序列”,依据安全、合规及舒适等多维指标对整条轨迹评分[14] - GSPO通过计算组内相对优势,显式引导模型向“高安全、高舒适”区域更新,确保规划结果比人类驾驶数据更安全规范[14] 性能表现与实验结果 - 在NAVSIM-v1评测基准上取得91.0 PDMS的SOTA成绩[3][16] - 在NAVSIM-v2评测基准上取得89.7 EPDMS的SOTA成绩,相较于DiffusionDrive提升5.2分[3][18] - 在NAVSIM-v1详细对比中,多项指标领先:NC 99.1, DAC 98.3, TTC 96.5, Comf. 99.9, EP 84.4, PDMS 91.0[17] - 在NAVSIM-v2详细对比中,多项指标领先:NC 99.0, DAC 98.4, DDC 99.3, TLC 99.9, EP 87.0, TTC 98.6, EPDMS 89.7[19] - 消融研究证实反因果序解码策略取得最佳闭环性能(91.0 PDMS),支持“以终为始”的规划直觉[20][21] - 定性实验验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用[22] 行业意义与影响 - WAM-Diff标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出重要一步[25] - 该框架通过Masked Diffusion重构时序生成逻辑,利用MoE解决策略单一性瓶颈,通过RL守住安全底线[25] - 证明了在VLA时代,“如何生成”与“生成什么”同样重要[25] - 这种具备反向推理能力且风格多变的规划器,被认为是通往L4级自动驾驶的关键拼图[25]