端到端自动驾驶
搜索文档
AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法,让端到端自动驾驶更高效
机器之心· 2026-01-04 13:43
文章核心观点 - 小鹏汽车与北京大学联合发表论文《FastDriveVLA》,提出了一种专为端到端自动驾驶设计的、基于重建的视觉token剪枝新范式,旨在解决现有视觉语言-动作模型因视觉token过多导致的计算成本高和推理延迟大的问题 [2][10] - 该方法的核心创新在于受人类驾驶注意力启发,聚焦于对驾驶决策至关重要的前景信息,通过构建大规模标注数据集和新型对抗性训练策略,训练出一个即插即用的轻量级剪枝器,在显著提升推理效率的同时,保持了甚至超越了原始模型的规划性能 [2][13][16][19] 研究背景与问题 - 端到端自动驾驶在一个统一框架中学习整个驾驶流程,减少了模块化系统的误差,增强了简洁性,展现出巨大潜力 [6] - 然而,现有VLA模型将视觉输入转换为大量视觉token,导致了巨大的计算开销和推理延迟,对车端部署构成重大挑战 [8] - 已有的视觉token剪枝方法(如基于注意力或相似性)并非为自动驾驶设计,存在局限性:或需重新训练整个模型,或易受无关信息干扰,或会错误保留与驾驶无关的信息 [8] 方法与创新 - **构建nuScenes-FG数据集**:明确定义对驾驶决策有直接影响的前景区域(如行人、道路、车辆、交通标志等),并利用Grounded-SAM对nuScenes场景进行细粒度前景分割,构建了包含24.1万个图像-掩码对的大规模标注数据集 [13][15] - **设计基于重建的剪枝器ReconPruner**:采用轻量级、可即插即用的设计,借鉴MAE风格的像素重建策略,通过让剪枝器使用其预测的高分token子集来重建前景,以此作为监督信号,鼓励其识别前景内容相关的token [16] - **提出对抗性前景-背景重建策略**:为防止剪枝器采取捷径,额外要求其使用低分token重建背景区域,这种对抗性设置增强了其区分前景与背景token的能力 [19] 实验结果 - **性能对比**:在nuScenes开环规划基准测试中,FastDriveVLA在不同剪枝比例下均取得了SOTA性能 [2][24] - 剪枝25%(保留2436个token)时,FastDriveVLA的L2轨迹误差平均为31.80 cm,相对性能为原始模型的100.1%;碰撞率平均为0.26%,相对性能为93.6%;路外率平均为2.77%,相对性能为101.0% [24] - 剪枝50%(保留1624个token)时,碰撞率平均为0.25%,相对性能达到97.3%,优于剪枝25%时的表现 [24][28] - 剪枝75%(保留812个token)时,路外率平均为2.91%,相对性能为96.1%,优于剪枝50%时的表现 [24][28] - **效率提升**:当视觉token数量从3249减少至812(剪枝75%)时,FastDriveVLA的FLOPs直降约7.5倍;在CUDA推理延迟方面,将预填充时间减少了3.7倍、解码时间减少了1.3倍 [2][26][27] - **可视化验证**:ReconPruner几乎完整保留了前景token,将背景压缩为极稀疏色块,重建画面依旧清晰;与基线方法相比,FastDriveVLA选取的token更密集地落在车道、车道线和车身上,证明了其保留关键驾驶信息的能力 [29] 结论与建议 - 研究证明了聚焦于与前景相关的视觉token是提升自动驾驶VLA模型性能与效率的关键 [28] - 对于实际部署,建议采用50%的剪枝比例,以实现性能与效率的最佳平衡 [25] - 该工作为自动驾驶VLA模型中的高效视觉token剪枝建立了新范式,并为特定任务的剪枝策略提供了有价值的洞察 [2]
为什么蔚来会押注世界模型?
自动驾驶之心· 2026-01-04 09:04
文章核心观点 - 文章核心为一篇关于自动驾驶世界模型进阶实战课程的推广文案,旨在介绍课程内容、讲师背景及学习目标,而非提供具体的行业或公司分析报告 [1][11] - 文章通过介绍蔚来汽车NWM2.0的宣发及行业对世界模型的关注切入,强调世界模型是提升智能驾驶能力上限的关键技术,并指出当前行业存在定义模糊、入门困难等痛点,从而引出该课程的价值 [1] 课程背景与行业关联 - 世界模型被视为智能驾驶真正的上限,其核心是以视频为核心,通过跨模态预测和重建,让系统学习时空和物理规律,解决时空认知问题,这与解决概念认知的语言模型形成对比 [1] - 行业内的AI巨头和自动驾驶公司正积极研发通用世界模型或相关技术,例如李飞飞团队的Marble、Yann LeCun的V-JEPA、DeepMind的Genie,以及在自动驾驶领域常见的视频生成、OCC(Occupancy)生成、激光雷达点云生成等方向 [1] - 许多公司基于开源算法搭建自己的云端或车端世界模型,用于生成长尾数据或进行闭环仿真与评测,部分公司尝试直接基于世界模型赋能车端驾驶能力 [1] 讲师介绍 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表多篇高水平学术论文(CCF-A论文2篇,CCF-B论文若干) [3] - 现任国内顶级主机厂算法专家,从事端到端自动驾驶、大模型、世界模型等前沿算法的预研和量产工作,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的研发和实战经验 [3] 课程内容大纲 - 课程共分为六章,从概述、背景知识到具体模型探讨与实践,最后聚焦工业界应用与求职 [4][6][7][8][9][10] - **第一章:世界模型介绍** 涵盖世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同流派(如纯仿真、仿真+规划、生成传感器输入、生成感知结果)及其在业界解决的问题环节,并介绍相关数据集与评测 [6] - **第二章:世界模型的背景知识** 讲解世界模型所需的技术栈,包括场景表征、Transformer、BEV感知等基础,为后续学习奠定基础,这些内容是当前求职面试的高频技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细讲解Marble、Genie、JEPA、导航世界模型、DriveVLA-W0以及特斯拉ICCV上分享的世界模型模拟器等模型的核心技术与设计理念 [7] - **第四章:基于视频生成的世界模型** 聚焦学术界和工业界研究最多的视频生成类算法,讲解Wayve的GAIA-1 & GAIA-2、上海交通大学的UniScene、商汤的OpenDWM、中科大的InstaDrive等工作,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦占用网络生成类算法,讲解三大论文及一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [9] - **第六章:世界模型岗位专题** 基于前五章基础,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位的面试准备与公司关注点 [10] 课程技术细节与覆盖范围 - 课程将详细讲解Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础,以及BEV感知、占用网络、扩散模型、闭环仿真中的NeRF与3DGS、以及其他生成式模型如VAE、GAN和Next Token Prediction等关键技术 [12] - 课程将涉及多项具体研究工作,包括清华的OccWorld、复旦的OccLLaMA、华中科技大学的HERMES以及西安交通大学最新的II-World等 [13] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,帮助学员真正理解端到端技术,学完后预期能达到具备1年左右经验的世界模型自动驾驶算法工程师水平 [11][14] - 具体学习收获包括:掌握世界模型技术进展(涵盖视频生成、OCC生成等方法)、对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解、能够复现II-World、OpenDWM等主流算法框架、能够将所学应用于项目并设计自己的世界模型,对实习、校招、社招均有助益 [14] - 面向人群需自备算力在RTX 4090及以上的GPU,具备一定的自动驾驶领域基础,熟悉Transformer大模型、扩散模型、BEV感知等基本概念,拥有概率论、线性代数基础以及Python和PyTorch编程能力 [14] 课程安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群内答疑及三次线上答疑,答疑服务截止至2026年12月31日 [15] - 各章节按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [16]
2026年,这个自驾社区计划做这些事情......
自动驾驶之心· 2026-01-02 16:08
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区 该社区定位为国内首个自动驾驶全栈技术交流与学习平台 致力于通过整合学术与产业资源 降低行业入门壁垒 帮助从业者及学习者提升竞争力 [4][17] - 社区已运营三年 目前拥有超过4000名成员 并计划在未来两年内将规模扩大至近万人 目标是打造一个集技术分享、学习路线、求职交流、行业调研于一体的综合性聚集地 [4][5] - 社区内容覆盖自动驾驶全技术栈 梳理了超过40个技术方向的学习路线 并提供了包括视频课程、专家访谈、技术问答、直播分享、岗位内推等在内的多元化服务 [4][7][9][10][11] 社区定位与规模 - 社区是国内首个自动驾驶全栈社区 旨在为学术界和工业界人士提供技术交流平台 成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校以及蔚小理、地平线、华为、大疆等头部公司 [17] - 社区目前成员已超过4000人 并计划在未来2年内将规模做到近万人 [4][5] - 社区内容形式多样 集视频、图文、学习路线、问答、求职交流为一体 [4] 内容体系与资源 - 社区系统梳理了超过40个自动驾驶技术方向的学习路线 包括感知、规划控制、仿真、端到端、VLA、多模态大模型、BEV感知、世界模型等 [7][9][18] - 汇总了丰富的学习资源 包括近40+开源项目、近60+自动驾驶相关数据集、行业主流仿真平台以及各类技术学习路线 [18] - 提供了七大福利视频教程 涵盖感知融合、多传感器标定、SLAM、规划预测、数据工程、目标跟踪、仿真、端到端及大模型技术等 [11] - 整理了自动驾驶领域企业介绍、国内外高校著名团队、经典书籍、开源数据集、会议信息等实用资料 [10][29][31][33][37] 社区活动与服务 - 定期举办“星友面对面”活动 已开展五期 覆盖学术界和工业界、科研就业和申博、跳槽和转行等话题 [4] - 计划开展企业技术专家访谈和行业调研 重点关注智驾规模化量产及L4赛道发展 [4] - 已举办超过一百场专业技术直播 邀请行业一线专家分享前沿工作 如VLA、3D检测、V2X、扩散模型规划、3DGS等 [90] - 提供技术问答服务 已为近4500名星友解答问题 并设有圆桌访谈和日常问题讨论 [4][21][92] - 与多家自动驾驶公司建立岗位内推机制 帮助成员对接就业机会 [11][22] 覆盖的技术方向与热点 - **端到端自动驾驶与VLA**:详细梳理了一段式/二段式量产方案、VLA开源数据集、模块化与端到端VLA等 是当前学术与工业界热点 [39][47] - **多模态与大模型**:涵盖自动驾驶多模态大模型预训练与微调数据集、VLM、大模型在自动驾驶中的应用等 [7][45][86] - **感知技术**:全面覆盖BEV感知、3D目标检测、2D/3D分割、多传感器融合、车道线检测、Occupancy Network、鱼眼感知等方向 [10][53][55][57][64][68][83][84] - **规划控制与预测**:包括传统规划控制算法、决策框架、轨迹预测、强化学习等 [10][49][62] - **仿真与重建**:涉及3DGS、NeRF与自动驾驶仿真结合、闭环仿真、Carla/Apollo等仿真平台 [41][82] - **前沿模型**:重点关注扩散模型、世界模型等技术在自动驾驶领域的原理与应用 [43][51] - **工程落地**:提供模型压缩、部署优化、CUDA编程、TensorRT部署等实战内容 [10][70][72]
中国智能驾驶产业的算力巨变
36氪· 2025-12-30 18:36
行业核心观点 - 2025年中国智能驾驶行业迎来前所未有的算力变局,算力成为行业发展的核心要素,无论是在车端还是云端,对算力的需求都越来越高[1][2] - 行业在软件算法路线上出现纷争,以理想、小鹏、元戎启行为代表的玩家选择VLA方案,而华为、蔚来等则更加强调世界模型,但尚无一家在用户体验层面形成碾压性优势[1][7] - 高阶智能驾驶的商业落地呈现K字型分化,导致车端算力落地走向碎片化,同时有玩家正从L2向L4体系的Robotaxi布局,云端算力的作用日益凸显[2] - 自动驾驶技术正处在从量变到质变的前夜,向L4迈进需要车端和云端算力的持续大幅加码,云端算力的角色可能更加重要[26] 技术范式演变与算力需求 - 特斯拉在2023年通过FSD Beta V12直播展示了其端到端自动驾驶系统,并在此框架下持续推进软件更新,如FSD V12.5参数数量是V12.4的五倍,V14参数量更是高达10倍[3][4][5][6] - 中国智能驾驶玩家在2024年集体迈出拥抱端到端的步伐,但进入2025年后,在意识到端到端方案的局限后,开始探索VLA、世界模型等新的算法演进路径[7] - 智能驾驶的技术演进,尤其是在进入端到端体系后,对数据处理和模型训练提出更高要求,在云端掀起了一场算力军备竞赛[20] - 自动驾驶的终极形态被设想为将规则输入大型多模态模型并实时处理传感器数据,这依赖于AI技术的持续发展和算力的双重加持[28] 车端算力格局与流派分化 - 2025年,高阶智能驾驶的车端算力选择主要分为三大流派:车企自研、英伟达系、华为系及其他[12] - **车企自研派**:以蔚来、小鹏、理想为代表。蔚来自研的神玑NX9031芯片,一颗算力水平相当于四颗Orin-X[13]。小鹏自研的图灵AI芯片算力为750 TOPS,并以三颗组合或单颗形式上车[13]。理想已宣布自研M100芯片,预计明年上车,其宣称在运行大模型和视觉模型时性能分别为市场最强芯片的2倍和3倍[13] - **英伟达系**:英伟达最新一代Thor芯片提供数倍于Orin-X的算力,是市场热门选择。2025年在理想、领克900、小米YU7、极氪、智己等多款车型上落地,极氪9X车型还提供双Thor芯片方案[13][14]。英伟达Orin-X平台仍在部分车型上使用,如蔚来乐道品牌车型[15] - **华为系及其他**:华为不倾向于公开其智驾平台算力,更注重软件算法迭代和云端训练,但部分车型如尊界S800采用了算力更高的MDC 810计算平台[15]。地平线在2025年推动其J6芯片系列通过HSD方案上车,已在奇瑞、长安部分车型落地[15] 云端算力的关键作用与竞争 - 云端算力是智能驾驶算法进化的关键基石,也是未来算法迭代的核心支撑,其重要性在行业向L4演进过程中愈发凸显[19][20] - 特斯拉在FSD演进中的优势,部分得益于其更充足的云端算力,为数据闭环、训练和仿真验证提供了巨大优势[20] - 行业在2023-2025年持续进行云端算力军备竞赛。即使在2024年财务状况不佳时,也有新势力车企老板拍板增加云端算力,并在2025年实现了算法的跨越式迭代[20] - 2025年,云端算力依旧不够用,且受限于公司每年的算力预算。解决长尾问题的数据训练、仿真模拟等只能在云端完成,行业共识认为首先要解决的算力瓶颈可能在云端[21][23] - 英伟达推出了开源的Cosmos世界基础模型、3DGRUT等工具来助力自动驾驶在云端的开发[23]
摸底地平线HSD一段式端到端的方案设计
自动驾驶之心· 2025-12-30 08:28
文章核心观点 - 文章对地平线公司提出的两篇关于一段式端到端自动驾驶方案的核心论文进行了技术解读,重点分析了DiffusionDrive和ResAD两篇工作的核心思想、架构设计及技术亮点,认为这些工作为行业从业者提供了重要启发 [2][3][18] DiffusionDrive方案总结 - 整体架构可分为感知信息、导航信息和轨迹生成三部分 [6] - 感知信息部分的核心是将感知任务的信息表征传递给规划器,一段式方案可采用稠密BEV特征图或稀疏实例特征等不同玩法 [6] - 导航信息的融合在实践中挑战巨大,特别是在复杂路况下,算法设计需结合具体导航平台、信息丰富度和定位能力 [7] - 轨迹生成部分的核心创新是“Truncated Diffusion”方法,其灵感源于人类驾驶行为具有固定模式这一观察 [8] - 该方法首先从训练集中通过K-Means聚类出N个描述常见驾驶行为的轨迹序列作为锚点 [9] - 在训练中对这些锚点轨迹进行弱加噪,从而降低去噪所需的步数,减少了训练收敛难度和推理时的去噪次数需求 [8][9] - 训练时计算与真值轨迹最接近的锚点对应的去噪轨迹损失,并预测每个锚点的存在性 [9] - 该锚点式轨迹生成方法降低了训练难度并提高了推理实时性,但文章未涉及系统时序模块以保障轨迹稳定性 [10] ResAD方案总结 - 整体架构的核心创新在于残差设计,模型不直接生成未来轨迹,而是预测未来轨迹与惯性外推轨迹之间的残差 [12] - 由于距离当前时刻越远残差越大,需要对时序上的残差进行正则化处理,以压缩其区间 [13] - 正则化后的残差分布在不同未来时刻表现得更一致,这有助于模型学习,避免了预测误差被远距离点过度影响,也缓解了数据分布不平衡下的模型“偷懒”问题 [14] - 在生成过程中,噪声被直接施加在初始速度上,通过控制横向和纵向噪声的不同大小,可以调整模型对不同方向的学习难度和关注程度 [15] - 方案设置了K种噪声,推理时可根据算力需求和对多模态的依赖程度选择不同的K值 [15] - 方案包含一个轨迹选择器,将top-k的轨迹预测编码作为查询,环境信息作为键和值,结合自车状态嵌入,通过Transformer预测多个自定义的度量分数,以选择最佳轨迹 [16] - 残差监督设计将惯性部分从预测中剥离,使模型能更专注于学习驾驶行为的真正多样性部分,有效对抗了数据采集过程中匀速数据过多导致的不平衡分布问题 [17] - 轨迹选择器部分回答了关于轨迹稳定性的部分疑问,但仍有改进空间,例如可进一步设计为时序结构以提升选择的稳定性 [17]
刷新NAVSIM SOTA!端到端自动驾驶新框架Masked Diffusion
自动驾驶之心· 2025-12-26 11:32
行业技术范式转移 - 端到端自动驾驶正经历从模块化向大一统的范式转移,VLA模型兴起[3] - 主流自回归生成范式存在局限性,其强制遵循的从左到时序生成逻辑与人类驾驶员以终为始的思维直觉存在本质差异[3] - 基于模仿学习的模型容易陷入平均司机陷阱,倾向于拟合数据分布均值,导致策略平庸化,难以在激进与保守间灵活切换[3] 核心技术创新:WAM-Diff框架 - 复旦大学与引望智能联合提出WAM-Diff框架,将离散掩码扩散模型引入VLA自动驾驶规划[3] - 框架结合稀疏混合专家架构与在线强化学习,构建了一套不受限于单向时序的生成式规划系统[3] - 在NAVSIM-v1和v2榜单上分别取得91.0 PDMS和89.7 EPDMS的SOTA成绩,证明了非自回归范式的潜力[4] 技术细节:生成逻辑与架构 - 采用混合离散动作分词技术,将连续2D轨迹坐标量化为高精度离散Token,误差控制在0.005以内,并与语义Token置于共享词表[6] - 使用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有位置Token,提升推理效率与全局优化能力[6] - 探索因果序、反因果序和随机序三种解码策略,实验发现反因果序策略在闭环指标上表现最佳,验证了以终为始生成逻辑的有效性[9] 模型架构增强 - 集成LoRA-MoE架构,包含64个轻量级专家,通过门控网络实现动态路由与稀疏激活,根据场景自动激活最匹配的驾驶专家[12] - 采用多任务联合训练,使模型在学习轨迹预测的同时通过驾驶VQA任务理解场景语义,增强规划的可解释性与泛化能力[12] - 引入分组序列策略优化算法,将优化粒度从单步Token提升至完整轨迹序列,依据安全性、合规性及舒适性等多维指标对整条轨迹进行评分[14] 性能表现与实验验证 - 在NAVSIM-v1评测中,WAM-Diff达到91.0的PDMS分数,超越DiffusionDrive、ReCogDrive及DriveVLA-W0等基线模型[16][17] - 在NAVSIM-v2评测中,取得89.7的EPDMS成绩,相较于DiffusionDrive提升了5.2分,表明其能有效平衡安全性与合规性[18][19] - 消融研究表明,反因果序解码策略取得最佳闭环性能,PDMS为91.0,支持以终为始的规划直觉[20][21] - 定性实验验证了MoE架构与GSPO在线强化学习在提升长尾场景鲁棒性方面的作用[22] 行业意义与展望 - WAM-Diff标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出重要一步[26] - 该研究证明在VLA时代,如何生成与生成什么同样重要,具备反向推理能力的规划器可能是通往L4级自动驾驶的关键拼图[26]
刷新NAVSIM SOTA,复旦提出端到端自动驾驶新框架
具身智能之心· 2025-12-26 08:55
文章核心观点 - 端到端自动驾驶的范式正从模块化向VLA模型主导的“大一统”转变,但主流自回归生成范式存在局限性,其强制性的“从左到右”时序逻辑与人类“以终为始”的驾驶直觉不符,且基于模仿学习的模型易陷入“平均司机”陷阱 [1] - 复旦大学与引望智能联合提出的WAM-Diff框架,通过引入离散掩码扩散模型、结合稀疏混合专家架构与在线强化学习,构建了一套非自回归的生成式规划系统,有效解决了上述痛点 [2] - WAM-Diff在权威评测基准NAVSIM上取得了最先进的成绩,证明了非自回归生成范式在复杂自动驾驶场景下的巨大潜力,是通往高阶自动驾驶的关键技术探索 [2][25] 技术框架与核心创新 - **生成逻辑重构**:WAM-Diff的核心创新在于重新思考生成逻辑,采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有Token,实现了全局优化,摆脱了自回归模型单向时序的束缚 [4][5] - **动作表示离散化**:框架引入了混合离散动作分词技术,将连续的2D轨迹坐标量化为高精度离散Token,并与驾驶指令的语义Token置于共享词表中,实现了在统一特征空间内的理解与规划 [5] - **“以终为始”的解码策略**:通过探索因果序、反因果序和随机序三种解码策略,发现反因果序策略表现最佳,即先确定远期驾驶意图再反推近期动作,从模型层面验证了人类驾驶员的直觉思维,并取得了91.0的PDMS最高分 [9][20][21] 模型架构与训练优化 - **稀疏混合专家网络**:通过集成LoRA-MoE架构,模型包含64个轻量级专家,能根据场景动态路由与稀疏激活,在控制计算开销的同时显著提升了模型容量与场景适应性 [12] - **多任务联合训练**:模型通过驾驶VQA等任务进行联合训练,使专家网络不仅掌握驾驶技能,更理解决策背后的因果逻辑,增强了规划的可解释性与泛化能力 [12] - **在线强化学习优化**:引入了分组序列策略优化算法,将优化粒度从单步Token提升至完整轨迹序列,依据安全性、合规性及舒适性等多维指标对整条轨迹评分,引导模型生成更安全、更规范的规划结果 [14] 性能表现与实验结果 - **NAVSIM-v1基准测试**:WAM-Diff取得了91.0的PDMS分数,超越了DiffusionDrive、ReCogDrive以及DriveVLA-W0等主流基线模型 [16][17] - **NAVSIM-v2基准测试**:在引入了更严格指标的v2测试中,模型取得了89.7的EPDMS成绩,相较于DiffusionDrive提升了5.2分,证明了其在平衡安全性、合规性与舒适性方面的稳健性 [18][19] - **消融研究验证**:对解码策略的消融研究证实,反因果序策略取得了最佳的闭环性能,支持了“以终为始”规划直觉的有效性 [20][21] - **定性分析**:可视化结果展示了模型在复杂博弈场景下的稳定性,验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用 [22]
刚做了一份世界模型的学习路线图,面向初学者......
自动驾驶之心· 2025-12-25 11:24
世界模型与端到端自动驾驶的关系 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 行业将自动驾驶世界模型的研究收敛于生成和重建两大领域[2] - 目前主流应用是利用世界模型进行闭环仿真,以应对Corner Case成本过高的问题[2] 世界模型课程核心内容架构 - 课程第一章概述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 课程第二章涵盖世界模型的基础知识,包括场景表征、Transformer、BEV感知等,是求职面试的高频技术点[5][6] - 课程第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 课程第四章聚焦视频生成类世界模型,讲解Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等算法,并以OpenDWM进行实战[7] - 课程第五章聚焦OCC生成类世界模型,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划[8] - 课程第六章分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备经验[9] 世界模型涉及的关键技术栈 - 基础技术包括Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础[11] - 涉及BEV感知基础知识及占用网络[11] - 涵盖扩散模型理论,该模型是输出多模轨迹的热点技术[11] - 包括闭环仿真相关的NeRF和3DGS技术[11] - 也涉及其他生成式模型,如VAE、GAN以及Next Token Prediction[11] 世界模型相关的重要研究 - 国内重要研究包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World[12] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,助力从业者深入理解端到端技术[10] - 学员需自备GPU,推荐算力在4090及以上[13] - 学员需具备自动驾驶领域基础,熟悉其基本模块[13] - 学员需了解transformer大模型、扩散模型、BEV感知等基本概念[13] - 学员需具备一定的概率论、线性代数及Python、PyTorch基础[13] - 课程期望使学员达到约1年经验的自动驾驶算法工程师水平,掌握世界模型技术进展及BEV感知等关键技术,并能复现主流算法框架[13] 课程进度安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 各章节解锁时间:第一章12月10日,第二章1月1日,第三章1月20日,第四章2月4日,第五章2月24日,第六章3月1日[15]
刷新NAVSIM SOTA,复旦引望提出Masked Diffusion端到端自动驾驶新框架
机器之心· 2025-12-25 11:12
行业技术范式转移 - 端到端自动驾驶正经历从“模块化”向“大一统”的范式转移,VLA模型兴起[2] - 主流自回归生成范式存在局限性,其“从左到右”的时序逻辑与人类驾驶员“以终为始”的思维直觉存在本质差异[2] - 基于模仿学习的模型易陷入“平均司机”陷阱,倾向于拟合数据分布均值,导致策略平庸化,难以在激进与保守间灵活切换[2] 核心解决方案:WAM-Diff框架 - 复旦大学与引望智能联合提出WAM-Diff框架,旨在解决现有痛点[2] - 框架创新性地将离散掩码扩散模型引入VLA自动驾驶规划,并结合稀疏混合专家架构与在线强化学习[2] - 构建了一套不再受限于单向时序的生成式规划系统[2] 核心技术创新:生成逻辑与架构 - 引入混合离散动作分词技术,将连续2D轨迹坐标量化为高精度离散Token,误差控制在0.005以内,并与语义Token置于共享词表[6] - 采用Masked Diffusion作为生成骨干,从全掩码序列出发,利用双向上下文信息并行预测所有位置Token,提升推理效率与全局优化能力[6] - 集成LoRA-MoE架构,包含64个轻量级专家,通过门控网络实现动态路由与稀疏激活,根据场景自动激活最匹配专家以提升容量与适应性[11] - 采用多任务联合训练策略,使模型在学习轨迹预测同时通过驾驶VQA任务理解场景语义,增强规划可解释性与泛化能力[11] 核心技术创新:规划策略与优化 - 探索因果序、反因果序和随机序三种解码调度策略,实验发现反因果序策略在闭环指标上表现最佳[9] - 反因果序策略验证了“以终为始”的生成逻辑,即先确定终点状态再倒推轨迹细节,能显著提升规划一致性与安全性[9] - 引入分组序列策略优化算法,将优化粒度从“单步Token”提升至“完整轨迹序列”,依据安全、合规及舒适等多维指标对整条轨迹评分[14] - GSPO通过计算组内相对优势,显式引导模型向“高安全、高舒适”区域更新,确保规划结果比人类驾驶数据更安全规范[14] 性能表现与实验结果 - 在NAVSIM-v1评测基准上取得91.0 PDMS的SOTA成绩[3][16] - 在NAVSIM-v2评测基准上取得89.7 EPDMS的SOTA成绩,相较于DiffusionDrive提升5.2分[3][18] - 在NAVSIM-v1详细对比中,多项指标领先:NC 99.1, DAC 98.3, TTC 96.5, Comf. 99.9, EP 84.4, PDMS 91.0[17] - 在NAVSIM-v2详细对比中,多项指标领先:NC 99.0, DAC 98.4, DDC 99.3, TLC 99.9, EP 87.0, TTC 98.6, EPDMS 89.7[19] - 消融研究证实反因果序解码策略取得最佳闭环性能(91.0 PDMS),支持“以终为始”的规划直觉[20][21] - 定性实验验证了MoE架构与GSPO在提升长尾场景鲁棒性方面的作用[22] 行业意义与影响 - WAM-Diff标志着端到端自动驾驶规划向离散化、结构化、闭环化迈出重要一步[25] - 该框架通过Masked Diffusion重构时序生成逻辑,利用MoE解决策略单一性瓶颈,通过RL守住安全底线[25] - 证明了在VLA时代,“如何生成”与“生成什么”同样重要[25] - 这种具备反向推理能力且风格多变的规划器,被认为是通往L4级自动驾驶的关键拼图[25]
下周开课!我们设计了一份自动驾驶世界模型学习路线图....
自动驾驶之心· 2025-12-24 17:22
自动驾驶世界模型技术趋势与课程核心内容 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径[2] - 当前行业将自动驾驶世界模型的研究收敛于生成和重建两大领域,并主要用于闭环仿真[2] - 行业正经历风格转换,因处理Corner Case成本过高,需寻求更有效的手段[2] - 近期世界模型相关研究呈现爆发式增长[2] 课程结构与核心知识点 - 课程共分六章,从概述、背景知识到专题应用,系统讲解世界模型[5][6][7][8][9] - 第一章阐述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 第二章涵盖世界模型所需基础技术栈,包括场景表征、Transformer、BEV感知等[5] - 第三章聚焦通用世界模型,解析Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 第四章专注视频生成类世界模型,涵盖GAIA-1、GAIA-2、UniScene、OpenDWM、InstaDrive等,并以OpenDWM进行实战[7] - 第五章讲解基于OCC生成的世界模型,涉及OccWorld、OccLLaMA、HERMES、II-World等三大论文及一个项目实战[8][12] - 第六章为工业界应用与岗位专题,分享行业痛点、应用现状及面试准备经验[9] 课程技术深度与目标人群 - 课程深度覆盖BEV感知、多模态大模型、3DGS、扩散模型、NeRF、VAE、GAN等关键技术[11] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV感知基本概念、有Python/PyTorch基础的学习者[13] - 学习目标为使学员达到约1年经验的自动驾驶世界模型算法工程师水平,能够复现主流算法并应用于实际项目[13] - 课程为离线视频教学,配备VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[14] - 课程自1月1日开课,预计两个半月结课,各章节按计划在12月10日至次年3月1日期间逐步解锁[14][15]