Workflow
端到端自动驾驶
icon
搜索文档
深扒特斯拉ICCV的分享,我们找到了几个业内可能的解决方案......
自动驾驶之心· 2025-12-23 08:53
文章核心观点 文章系统阐述了特斯拉FSD等端到端自动驾驶方案面临的三大核心挑战,并分别提出了三项创新性的技术解决方案,这些方案相互协同,形成了一个从高效感知决策到可解释性增强,再到物理一致评估的完整技术栈,有望推动行业向L4/L5级别自动驾驶发展 [30][31] 挑战一:维度灾难及其解决方案 - **挑战核心**:端到端自动驾驶面临维度灾难,需在输入层面高效处理海量多模态时序数据,在输出层面实现从原始感知到规划决策的真正端到端映射 [4] - **解决方案**:提出UniLION框架,这是业界首个基于线性组RNN的统一自动驾驶框架,采用类ViT范式,将多视角图像、LiDAR点云和时序信息统一转换为token序列,在3D空间进行高效融合 [4] - **架构特点**:UniLION具有统一的3D骨干网络,基于线性组RNN实现线性计算复杂度,解决了传统Transformer处理长序列时的计算效率瓶颈,能无缝处理不同模态和时序信息,无需显式融合模块 [7] - **核心组件**:UniLION Block包含四个关键设计:UniLION Layer(利用线性组RNN实现长距离特征交互)、3D空间特征描述器、体素合并与扩展、自回归体素生成,采用层次化结构提取多尺度特征 [9] - **性能表现**:在多项任务中达到卓越性能,包括检测任务75.4% NDS和73.2% mAP,跟踪任务76.5% AMOTA,地图分割73.3% mIoU,占用预测51.3% RayIoU,车辆运动预测0.57 minADE,行人运动预测0.37 minADE,规划任务碰撞率仅0.18% [11] 挑战二:可解释性与安全保障及其解决方案 - **挑战核心**:自动驾驶系统需具备可解释性以确保安全,但传统LLM缺乏精确3D空间感知能力,而基于视觉的模型缺乏可解释性和自然语言交互能力 [12] - **解决方案**:提出DrivePI框架,这是业界首个以单一LLM模型(仅0.5B参数的Qwen-2.5)实现视觉-语言-行为(VLA)和视觉-行为(VA)架构统一的框架 [13] - **架构特点**:DrivePI是一种空间感知4D多模态大语言模型,引入激光雷达作为补充传感模态以提供精确3D几何信息,生成中间的精细3D感知和预测表示,确保MLLM输出特征保持可靠的空间感知能力 [14] - **性能表现**:在文本理解方面超越OpenDriveVLA-7B模型2.5个百分点(60.7% vs 58.2%),碰撞率比ORION降低70%(从0.37%降至0.11%),3D占用性能超过FB-OCC模型10.3个RayIOU点(49.3% vs 39.0%),轨迹规划L2误差比VAD低32%(0.49m vs 0.72m) [13] - **主要贡献**:提出了首个统一的空间感知4D MLLM框架,弥合了基于视觉和基于VLA范式之间的技术鸿沟,尽管仅使用0.5B参数骨干网络,但在3D占用和占用流预测方面优于现有的基于视觉的专用模型 [17] 挑战三:系统评估及其解决方案 - **挑战核心**:自动驾驶系统评估面临人类驾驶行为不确定性与复杂交互场景多样性的挑战,传统方法难以覆盖足够的边缘场景和安全关键场景 [18] - **解决方案思路**:需要开发一个具备物理感知场景生成能力、长时序预测能力和高度可控性的自动驾驶世界模型 [20] - **具体解决方案**:提出GenieDrive,这是业界首个采用4D占据表征作为中间状态的自动驾驶世界模型,采用“先生成4D占据、再生成视频”的两阶段框架,能生成长达20秒的多视角高质量视频序列 [21] - **架构特点**:GenieDrive是一种以4D Occupancy作为中间表示的自动驾驶世界模型框架,通过Tri-plane VAE高效压缩技术,仅使用现有方法58%的潜在表示数量实现SOTA的占据重建性能,大幅降低计算和存储需求 [22] - **性能表现**:在4D占据预测任务上将mIoU提高了7.2%(相比I²-World),在视频生成质量评估中将FVD指标降低了20.7% [21] - **主要贡献**:开创了“先生成4D占据、再生成视频”的全新研究路径,在仅使用3.47M参数的情况下实现了41 FPS的实时推理速度,支持长时序视频生成和场景编辑功能,为自动驾驶系统的闭环评测、难例生成和安全验证提供了强大技术支持 [27] 技术协同与生态系统 - **技术闭环**:三项技术创新形成了一个相互赋能的完整技术生态系统:UniLION提供高效的感知和决策基础,并为DrivePI提供强大的视觉编码能力;DrivePI增强了系统的可解释性和人机交互能力,同时为GenieDrive提供控制输入条件;GenieDrive则为整个系统提供可靠的评估和验证环境,并通过生成合成数据反哺UniLION和DrivePI的训练过程 [31] - **整体意义**:通过这种系统性方法,构建了一个从感知到决策再到评估的完整闭环自动驾驶技术栈,每个环节都实现了显著的性能突破,为未来更安全、更可靠、更高效的自动驾驶系统开发铺平了道路,有望加速整个行业向L4/L5级别自动驾驶的跨越式发展 [31]
世界模型工作正在呈现爆发式增长
自动驾驶之心· 2025-12-20 10:16
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是实现端到端自动驾驶的一种途径,当前行业研究主要聚焦于生成和重建两大领域,并广泛应用于闭环仿真以应对Corner Case成本过高的问题 [2] - 行业正经历风格转换,世界模型相关研究呈现爆发式增长,为应对此趋势,推出了聚焦通用世界模型、视频生成、OCC生成等算法的进阶实战课程 [2] 课程内容与结构 - **第一章:世界模型介绍** 涵盖世界模型与端到端自动驾驶的联系、发展历史、应用案例,并介绍纯仿真、仿真+规划、生成传感器输入、生成感知结果等不同流派及其在行业中的应用环节和解决的问题 [5] - **第二章:世界模型的背景知识** 讲解世界模型的基础技术栈,包括场景表征、Transformer、BEV感知等,为后续学习奠定基础,这些内容是当前世界模型求职面试的高频技术关键词 [5][6] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细解析李飞飞团队Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器等模型的核心技术与设计理念 [6] - **第四章:基于视频生成的世界模型** 聚焦视频生成类世界模型算法,讲解Wayve的GAIA-1 & GAIA-2、上海交大CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive等经典与前沿工作,并以商汤开源的OpenDWM进行实战展开 [7] - **第五章:基于OCC的世界模型** 聚焦OCC生成类世界模型算法,讲解三大论文并进行一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [8] - **第六章:世界模型岗位专题** 基于前五章算法基础,分享工业界应用经验,探讨行业痛点、世界模型需解决的问题,以及相关岗位面试准备与公司关注重点 [9] 课程技术覆盖与学习目标 - **技术覆盖** 课程内容涉及Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN、Next Token Prediction等多种生成式模型与关键技术 [11] - **核心算法案例** 课程涵盖清华OccWorld、复旦OccLLaMA、华科ICCV'25的HERMES、西交II-World等具体算法工作 [12] - **学习目标** 学员学完后预期能达到约1年经验的世界模型自动驾驶算法工程师水平,掌握世界模型技术进展,深刻理解BEV感知、多模态大模型等关键技术,能够复现II-World、OpenDWM等主流算法框架,并应用于实际项目设计 [13] 课程安排与面向人群 - **课程安排** 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日,各章节按计划从12月10日至次年3月1日逐步解锁 [14][15] - **面向人群** 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、扩散模型、BEV感知等基本概念,拥有概率论与线性代数基础,以及Python和PyTorch编程能力的学员,学习需自备算力在4090及以上的GPU [13]
某新势力智驾负责人遭排挤离职......
自动驾驶之心· 2025-12-19 17:25
智驾公司A停摆与集团接管 - 智驾独角兽A公司停摆的直接原因是集团B的全面接管,而接管源于公司内部的人事与财务问题[4] - 去年4月,因一名年薪近百万的销售被举报简历造假,引发集团彻查,进而暴露出财务问题,导致公司彻底失去集团信任[4] - 集团随后收回了A公司的公章以及包括审批付款在内的所有权限[4] - 公司负责人乙将事务全权交由外援管理,外援缺乏创业精神、热衷内部斗争,导致公司管理失控,最终不得不配合外援向集团隐瞒实情[5] - 公司在去年11月大裁员后,仅剩余300多位员工,且在通知停工前,全员群已被禁言[4] 新势力车企C供应链管理失误 - 以供应链成本控制著称的新势力C公司,其供应链负责人因在内存涨价潮中未及时备货而被撤职[6] - 此次失误直接触动了老板的雷区,因为公司此前曾因核心零部件备货不足吃过亏,老板早已明确划定红线[6] 新势力车企D智驾团队内斗与技术路线困境 - 车企D的智驾负责人丙离职,导火索是其上任后计划砍掉公司原有的约200人地图团队,触动了相关利益并遭到排挤[7] - 公司长期执着于高端技术定位,认可特斯拉路径,不惜重金投入,曾引入高精地图与激光雷达,智驾团队规模一度达到千人[7] - 然而,有图路线研发坎坷,地图团队消耗大量资源却未取得理想成效,砍掉该团队从效益看更稳妥,但与公司长期技术风格相悖[7] - 即便负责人被挤走,公司仍面临有图方案落地难、拿不出成果的实际困境[7] 物流公司E的L4自动驾驶战略摇摆 - 物流公司E在L4自动驾驶上态度摇摆,近期将L2和L4团队合并,但因底层架构不同,反而造成团队额外消耗[8] - 公司计划投入60人、1.5亿人民币,用一年时间打造“头车有人、后车无人”的开放L4编队demo[8] - 该demo的成败将决定公司后续行动:若成功则用于拉投资,若失败则可能对其控股的自动驾驶公司进行裁员[8] - 公司今年裁员后算法岗社招困难,许多技术背景不错的人因认为其“外行领导内行”而不愿加入[8] 无人车公司F独立融资失败 - 无人车公司F曾计划拆分并独立融资,以约10亿人民币的估值寻求资金,但最终因融资困难而失败[9] - 公司过往运营数据亮眼:日常运营近1000台无人车,累计送货达2000多万件包裹,同期友商送货量不到百万级[9] - 投资人认为其团队缺乏强大战斗力,且组织架构随时可能被集团收回,因此不愿投资[9] - 公司经历多次团队换帅,创始成员大多已转型为机器人、AI领域创业者[9] 主机厂G的创新困境与效率低下 - 主机厂G内部鼓励创新,但执行中演变为“表演式上班”,员工到点不下班也不真正工作[10] - 为追求“创新必须可见”,研发团队在整车散热系统整合项目中,为展示压缩机多功能性而增加第二个冰箱,挤占了后排空间,但用户并不需要[10] - 公司自动驾驶板块拥有四五千人的工程师队伍,但仅跑通两条demo路线,产出寥寥[10] - 有传言称公司手握除华为外业内几乎所有公司的代码,这些代码多由跳槽员工带来[10] 智驾公司H的管理混乱 - H公司实行老板丁的“一言堂”和饭圈式管理,对内靠拉踩友商标榜自身,对外则通过公关手段删除负面评价[11] - 公司高管要么不听号令,要么阳奉阴违,多数处于躺平状态,管理松散,导致600人的公司如一盘散沙[12] - 基层管理者没有决策权,也不了解公司整体规划,核心人才多沦为一线耗材,士气低落[12] - 曾有员工大半年未到岗,但HR和部门负责人均不知情或不闻不问[12] 新势力车企I的内斗与技术掉队 - 车企I的高管甲在公司内大肆挑起内斗,其嫡系感知部门与规控等部门针锋相对,导致严重内耗[13] - 在智驾技术路线选择的关键节点,甲反对公司跟进行业主流的端到端架构,CEO采纳其意见,导致公司错失最佳转型窗口期[13] - 当CEO醒悟时,公司在智驾领域已明显掉队,难以挽回[14] 自驾货运公司J的商业模式困境 - 自驾货运公司J陷入“L2辅助驾驶越做越亏,却不得不硬撑”的困境[15] - 公司为通过L2规模化积累数据,推出高额补贴政策,如按自动驾驶里程补贴运费、“买十赠一”等,初期有效压制了友商[15] - 公司采用租赁运营模式,向客户承诺提供稳定货源以快速抢占市场[15] - 但半年后货源供应问题爆发,无法兑现承诺导致客户退货,大量车辆积压[15] - L2作为辅助驾驶无法有效降低人工成本,反而增加研发与运营投入,导致亏损,但公司为维持“规模化走向L4”的资本叙事只能继续推进[15][16]
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 11:18
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是一种实现端到端自动驾驶的技术途径[2][5] - 端到端自动驾驶定义为没有显式信息处理与决策逻辑,从信息输入直接输出决策结果的模型[3] - 世界模型定义为接受信息输入,内在建立对环境的完整认知,能够重建和预测未来变化的模型[4] - 行业正通过推出专业课程,系统性地传授世界模型在自动驾驶领域的算法、应用与实战经验,以推动技术落地和人才培养[5][15] 课程内容与结构 - 课程共分六章,从概述、基础知识到前沿模型、实战应用及行业经验,系统覆盖世界模型技术栈[10][11][12][13][14] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同技术流派及其在业界解决的问题环节[10] - 第二章讲解世界模型涉及的背景知识,包括场景表征、Transformer、BEV感知等,是求职面试高频技术点[10][11] - 第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、导航世界模型、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[11] - 第四章聚焦视频生成类世界模型,涵盖Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战[12] - 第五章聚焦OCC生成类世界模型,涵盖清华OccWorld、复旦OccLLaMA、华科HERMES、西交II-World等三大论文及一个项目实战,该方法可扩展至自车轨迹规划[13][17] - 第六章分享世界模型在工业界的应用现状、行业痛点、解决目标以及相关岗位的面试准备与公司关注点等实战经验[14] 讲师与课程目标 - 讲师Jason拥有C9本科与QS50博士背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的量产交付,具备丰富的研发与实战经验[7] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端[15] - 课程期望使学员达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握技术进展并能复现主流算法框架[18] - 学员需自备推荐算力在4090及以上的GPU,并具备自动驾驶基础、Transformer大模型、扩散模型、BEV感知、概率论、线性代数及Python/PyTorch编程基础[18] 课程安排与形式 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[19] - 章节内容按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[20]
端到端VLA的入门进阶和求职,我们配备了完整的学习路线图!
自动驾驶之心· 2025-12-18 08:06
行业人才需求与趋势 - 近期多家行业中游厂商积极寻求端到端自动驾驶和视觉语言动作模型方向的技术人才 计划在明年投入更多资源进行技术落地 [2] - 对于经验丰富的专家级人才 行业提供的薪酬水平普遍在百万年薪起步 显示出市场对高端技术人才的强烈需求和竞争 [2] 行业培训课程概况 - 为应对工业界明确的技术需求 行业推出了多个聚焦于量产落地的实战培训课程 包括《面向量产的端到端实战小班课》、《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大模型实战课程》旨在打通从入门、进阶到求职的全链条 [4] - 课程由来自顶尖企业和学术机构的专家授课 师资背景强大 均拥有C9及QS排名前列高校的学历 并在国际顶级会议发表多篇论文 且具备将前沿算法成功量产落地的实战经验 [6][9][14][15] 端到端自动驾驶量产课程 - 该课程聚焦于端到端自动驾驶的量产落地 详细讲解导航信息应用、强化学习优化、Diffusion和自回归模型的量产经验以及时空联合规划兜底等核心模块 [4] - 课程设计了七大落地实战项目 目标人群为已经从事端到端自动驾驶相关工作并希望进阶加薪的从业者 [4] 端到端与VLA宏观技术课程 - 该课程从宏观领域梳理端到端自动驾驶 涵盖一段式/两段式方向的重点算法和理论基础 详细讲解BEV感知、大语言模型、扩散模型和强化学习 [7] - 课程包含两大实战项目 分别是基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [7] 自动驾驶VLA与大模型实战课程 - 该课程由学术界专家带队 全面梳理视觉语言动作模型领域 涵盖从视觉语言模型作为解释器到模块化VLA、一体化VLA以及当前主流的推理增强VLA三大方向 [12] - 课程配套详细的理论基础梳理 包括视觉、语言、动作三大模块以及强化学习和扩散模型等 并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [12] - 课程对学员有明确的先决条件要求 包括需要自备算力在4090及以上的GPU、具备自动驾驶领域基础、了解Transformer大模型等技术的基本概念、拥有一定的数学和编程基础 [11]
北交&地平线提出DIVER:扩散+强化的多模态规划新框架
自动驾驶之心· 2025-12-17 11:18
文章核心观点 - 当前主流端到端自动驾驶系统存在模仿学习范式导致的“模式坍塌”问题,即模型倾向于生成高度聚集在单一专家轨迹附近的行为,缺乏真正有意义的行为多样性,限制了在复杂场景下的决策能力 [2][7] - 研究团队提出了一种名为DIVER的新型多模态规划框架,该框架将扩散模型的多模态生成能力与强化学习的目标约束机制相结合,将轨迹生成从“单一模仿回归问题”转化为“在安全与多样性约束下的策略生成问题” [3][9] - DIVER框架在多个公开基准测试中表现优异,在显著提升轨迹多样性的同时保持了低碰撞率,展现出更强的复杂场景适应能力,为构建更灵活、更接近人类决策的自动驾驶系统提供了新的技术路径 [3][33][34] 研究背景与问题 - 端到端自动驾驶系统在真实测试中表现出行为过于保守和模式单一的问题,难以应对复杂交通场景 [5] - 问题的根源在于主流方法依赖单一专家示范的模仿学习范式,模型被迫去拟合一条“唯一正确”的专家轨迹,即使引入多模态规划,生成的候选轨迹也高度聚集在真实轨迹附近,缺乏真正的行为多样性 [2][6][7] - 人类驾驶在相同场景下会展现出减速、并线、绕行或等待等多种行为,当前模型缺乏这种在行为多样性与安全约束之间取得平衡的能力 [8] DIVER框架核心技术 - 核心思想是不再把轨迹生成当作拟合真实轨迹的回归问题,而是当作在安全与多样性约束下的策略生成问题 [11][12] - 框架构建了“扩散生成 + 强化学习优化”的完整流程,主要包括:策略感知扩散生成器、参考真实轨迹引导的多模态扩散、以及基于GRPO的强化学习优化 [11][12] - 策略感知扩散生成器是核心模块,它在扩散去噪过程中引入地图、动态物体、参考轨迹等条件信息,使生成的每条轨迹都具备清晰语义与可行性 [16][18] - 采用多参考真实轨迹引导机制,从专家轨迹中构建多个参考真实轨迹,并使用匈牙利匹配进行一对一监督,为每个预测模式明确赋予一种驾驶意图,从源头上避免模式坍塌 [20][21] - 采用分组相对策略优化强化学习方法,为生成的轨迹引入多样性、安全、轨迹一致性与车道保持等多种轨迹级奖励,确保在探索多样性的同时保持驾驶质量 [22] 性能评估与结果 - 在Bench2Drive闭环评测中,DIVER在多项关键指标上显著优于UniAD、VAD、SparseDrive、DiffusionDrive等方法 [28] - 在Turning-nuScenes数据集的评测中,DIVER的轨迹多样性显著更高,同时碰撞率最低。例如,在平均多样性指标上达到0.31,优于对比方法的0.21、0.23和0.20;平均碰撞率为0.27%,低于对比方法的0.40%、0.34%和0.32% [29][30][31] - 在nuScenes验证集的6秒长时预测任务中,DIVER在多样性上大幅领先,同时保持最低碰撞率。例如,在3秒时多样性为0.75,碰撞率为1.91%,均优于对比方法 [32] - 文章总结DIVER展示了显著更高的轨迹多样性、更低的碰撞率、更稳定的长时规划能力以及更强的复杂场景泛化能力 [33][36]
小鹏最新一篇基于潜在思维链世界模型的FutureX,车端可以借鉴...
自动驾驶之心· 2025-12-15 14:00
文章核心观点 - 提出一种名为FutureX的新型端到端自动驾驶框架,该框架通过将思维链推理融入潜在世界模型,在执行运动规划前对假设的未来场景进行推理,从而在复杂动态交通环境中生成更安全、更合理的运动规划 [3][8][30] - FutureX的核心创新在于引入了“潜在思维链推理”概念,将推理步骤与潜在世界模型的前向滚动预测相结合,并设计了“自动思考开关”来根据场景复杂度动态选择“思考模式”或“即时模式”,以平衡性能与实时性需求 [3][6][8] - 实验表明,FutureX能显著提升现有端到端基线模型的性能,例如在NAVSIM数据集上,使TransFuser的预测驾驶员模型得分提升了6.2,并在多项指标上达到当前最优性能 [3][13][27] 背景回顾:端到端自动驾驶的挑战与机遇 - 端到端自动驾驶系统通过单一神经网络直接将传感器输入映射为控制输出,执行高效的一次性前向预测,但缺乏在复杂环境中的适应性和可解释性 [5] - 人类驾驶员在决策前会进行未来场景模拟,这种内在推理能力对于在高度动态的交通环境中做出安全决策至关重要,而现有端到端系统缺乏这种能力 [5] - 受大型语言模型中思维链机制的启发,自动驾驶领域开始探索将推理融入规划,但现有方法多停留在文本描述层面,未能与实际的规划和控制过程紧密结合 [6] FutureX框架方法论 - **自动思考开关**:评估当前场景的规划难度,决定是否激活潜在世界模型进行额外推理,以在复杂场景中优化轨迹,在简单场景中快速响应 [7][8][18] - **思考模式**:当开关激活时,潜在世界模型执行思维链引导的滚动预测,生成一系列未来场景的潜在表征,随后由总结网络利用这些未来信息优化初始轨迹 [3][7][12] - **即时模式**:当开关判断为简单场景时,系统绕过世界模型,直接通过策略网络和总结网络快速生成运动规划 [3][7] - **潜在思维链推理**:将思维链重新定义为在潜在特征空间内进行的、可学习的“世界模型-策略”循环,每个推理步骤对应世界模型基于一个短期子轨迹进行的未来状态模拟 [6][9][16] - **基于思考的轨迹优化**:总结网络以初始轨迹和思维链推理生成的未来潜在状态序列为输入,预测轨迹偏移量,输出优化后的最终轨迹 [17] 实验验证与性能表现 - 在NAVSIM数据集上,FutureX使TransFuser的预测驾驶员模型得分提升了6.2 [3] - 在CARLA的Longest6基准测试中,FutureX在纯视觉和视觉-激光雷达多模态设置下均超越了强大的基线模型(如UniAD、VADv2、TransFuser等),在无过错碰撞、可行驶区域合规、自我进度等多个关键指标上达到最优 [27] - 定性结果显示,FutureX能够通过及时刹车或变道超车来避免碰撞,并能提供更合理的转向规划 [28] - 在效率方面,FutureX通过自动思考开关实现了性能与延迟的平衡,例如在特定配置下,其延迟为31.3毫秒±0.6毫秒,同时PDMS得分达到89.2 [29]
南洋理工&哈佛提出OpenREAD:端到端RL统一认知与轨迹规划
自动驾驶之心· 2025-12-13 10:04
文章核心观点 - 南洋理工大学与哈佛大学联合提出名为OpenREAD的全新框架,旨在通过强化学习全面提升视觉语言大模型在自动驾驶领域的推理与规划能力[4] - 该框架的核心创新在于,通过引入大语言模型作为“评判专家”,将强化学习的应用范围从传统的、可验证的轨迹规划任务,成功拓展至“驾驶建议”、“场景分析”等开放式知识学习任务,实现了高层语义推理与低层轨迹规划的端到端协同强化微调[6] - 实验结果表明,该框架在驾驶知识评测和轨迹规划任务上均取得了当前最优的性能,证明了协同学习驾驶知识与轨迹规划的必要性和有效性[6][17][28] 方法 - **数据准备与冷启动**:为应对开放式知识学习的奖励设计挑战,研究构建了带显式思维链的驾驶知识数据,并将OmniDrive数据集转换为适用于强化学习的“思考+回答”格式[7][8][9]。随后利用带思维链的数据进行监督微调,为模型提供冷启动,使其获得基础的思考与推理能力[12] - **引入大语言模型作为奖励函数**:在强化学习微调阶段,引入Qwen3-LLM作为“评判专家”,由其判断模型生成答案与参考答案是否一致,并给予0或1的奖励[12]。同时,计算生成答案与参考答案的嵌入向量余弦相似度作为额外奖励,形成“专家判断+语义相似度”的双重奖励机制,以鼓励模型输出既正确又简洁的高质量回答[12] - **驾驶知识与轨迹规划的协同训练**:框架将强化学习同时应用于驾驶知识推理与轨迹规划任务[13]。对于轨迹规划,设计了基于轨迹误差的奖励函数,对近距离时间点的误差要求更严格,对远距离误差更宽容,以平衡安全性与规划精度[13]。在训练中,为批次内不同类型的任务分别计算奖励,最后综合用于更新模型参数,促使模型在知识推理与路径规划间建立联系[13] 实验结果 - **协同训练效果验证**:在LingoQA和NuScenes数据集上的实验表明,仅使用轨迹规划任务时,强化学习微调带来的提升有限[17]。随着引入驾驶知识数据进行协同训练,强化学习微调的效果显著增强[17]。在最终使用轨迹规划、伪轨迹分析和LingoQA数据协同训练2个周期后,强化学习微调模型在轨迹平均L2误差、碰撞率和知识评测上均超越了监督微调模型[19]。具体表现为:平均L2误差从监督微调的0.44米降至0.40米,平均碰撞率从0.18%降至0.11%,LingoQA知识评测准确率从68.0%提升至68.8%[19] - **轨迹规划性能对比**:在NuScenes开环评测中,OpenREAD的轨迹规划性能优于多种现有方法[20]。其3秒时的L2误差为0.63米,平均碰撞率为0.11%,在碰撞控制方面表现出色,保证了驾驶安全性[21]。与同样使用GRPO进行强化学习微调的AutoVLA相比,OpenREAD在轨迹误差和碰撞率控制上均更优,突显了引入驾驶知识对下游任务的重要性[20] - **驾驶知识评测对比**:在LingoQA驾驶知识评测中,OpenREAD取得了当前最优的表现,其Lingo-Judge准确率达到68.2%,超过了其他对比模型如ReCogDrive(67.8%)和WiseAD(60.4%)[22]
时隔一年DiffusionDrive升级到v2,创下了新纪录!
自动驾驶之心· 2025-12-11 11:35
核心观点 - 华科王兴刚教授团队提出DiffusionDriveV2,通过引入强化学习解决了其前代模型DiffusionDrive在端到端自动驾驶轨迹规划中面临的“多样性与持续高质量”两难困境 [1][3] - 该方法创新性地结合了锚点内GRPO、锚点间截断GRPO与尺度自适应乘法探索噪声,在保留多模态生成能力的同时,显著提升了轨迹的整体输出质量与安全性 [4][12] - 在NAVSIM v1和v2数据集的闭环评估中,DiffusionDriveV2结合ResNet-34主干网络取得了当前最优性能,PDMS分别达到91.2和85.5,创下新纪录 [4][33] 技术背景与问题 - 端到端自动驾驶(E2E-AD)直接从原始传感器输入学习驾驶策略,是当前发展浪潮 [5] - 传统单模态规划器仅回归单一轨迹,无法提供备选方案;基于选择的方法使用静态候选轨迹库,灵活性有限 [5] - 原始扩散模型应用于轨迹生成时面临模式崩溃(mode collapse)问题,倾向于生成保守且单一的轨迹,无法捕捉未来多样性 [5][13] - DiffusionDrive通过预定义轨迹锚点构建高斯混合模型先验,将生成空间划分为对应不同驾驶意图的子空间,从而促进多样化行为生成 [5][13] - 但DiffusionDrive依赖模仿学习,其训练目标仅优化与专家轨迹最接近的“正模式”,对占样本绝大多数的“负模式”缺乏约束,导致生成大量低质量甚至碰撞的轨迹,无法保证持续高质量 [8][17][18] DiffusionDriveV2核心方法 - **整体架构**:采用DiffusionDrive作为预训练的轨迹生成器进行冷启动,引入强化学习目标对所有生成模式施加约束并推动探索 [19][21] - **尺度自适应乘法探索噪声**:为解决轨迹近端与远端尺度不一致问题,采用纵向与横向乘法高斯噪声替代加法噪声,生成的探索路径更平滑,保留了轨迹连贯性 [24] - **锚点内GRPO**:为避免不同驾驶意图(如直行与转弯)间不当的优势比较导致模式崩溃,仅在每个锚点内部生成的轨迹变体组内执行GRPO策略更新 [9][24] - **锚点间截断GRPO**:为解决锚点内GRPO优势估计丧失全局可比性的问题,修改优势估计,将所有负优势截断为0,并对发生碰撞的轨迹施加-1的强惩罚,原则是“奖励相对改进,仅惩罚绝对失败” [27][28] - **模式选择器**:采用两阶段“粗到细”评分器,结合二元交叉熵损失和Margin-Rank损失,从多模态预测中选择最优轨迹 [29] 实验结果与性能 - **基准测试成绩**:在NAVSIM v1测试集上,PDMS达到91.2,相比DiffusionDrive提升3.1;在NAVSIM v2测试集上,EPDMS达到85.5 [4][33] - **模型效率**:仅使用2180万参数的ResNet-34主干网络,性能优于基于9690万参数V2-99主干网络的对比方法(如GoalFlow和Hydra-MDP) [33] - **多样性与质量权衡**: - 原始扩散方法(如TransfuserTD)多样性得分仅0.1,质量稳定但缺乏多样性 [37] - DiffusionDrive多样性得分高达42.3,但质量无法保证(PDMS@10为75.3) [37] - DiffusionDriveV2多样性得分30.3,在多样性与质量间实现最优权衡,其PDMS@1为94.9(提高上限),PDMS@10为84.4(提高下限) [37][38] - **消融实验验证**: - 乘法探索噪声优于加法噪声,PDMS从89.7提升至90.1 [40] - 使用锚点内GRPO使PDMS从89.2提升至90.1 [41] - 使用锚点间截断GRPO使PDMS从89.5提升至90.1 [42] 研究意义与贡献 - 据研究者所知,DiffusionDriveV2是首个直接面对并解决截断扩散模型在轨迹生成中“多样性与持续高质量”两难困境的工作 [12] - 是首个成功将GRPO方法迁移到基于锚点的截断扩散模型的工作 [12] - 该方法证明了强化学习的“探索-约束”范式能有效提高模型性能下限与上限,为端到端自动驾驶规划提供了新思路 [8][38]
随到随学!端到端与VLA自动驾驶小班课正式结课
自动驾驶之心· 2025-12-10 03:00
行业技术发展趋势 - 2023年是端到端自动驾驶量产的元年,2024年将是其量产的大年,目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要技术范式:一段式(如UniAD,从传感器输入直接建模自车轨迹)和二段式(基于感知结果进一步输出自车及他车轨迹) [1] - 自2023年以来,一段式端到端技术发展迅速,衍生出基于感知、世界模型、扩散模型及视觉语言模型(VLA)等多种方法 [3] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力端到端自动驾驶的自研与量产 [3] - 基于视觉语言模型(VLA)的端到端方法被认为是目前该领域的皇冠,上限高且难度大,因此业内招聘需求也最为旺盛 [12] 课程核心内容与结构 - 课程旨在系统讲解端到端与VLA自动驾驶,内容涵盖BEV感知、视觉语言模型、扩散模型、强化学习等前沿技术栈 [5] - 第一章介绍端到端算法的发展历史、概念起源、从模块化到端到端的演进,以及一段式、二段式和VLA范式的优缺点与适用场景 [8] - 第二章重点讲解端到端涉及的背景知识,包括大语言模型、扩散模型、强化学习及BEV感知,这些被认为是未来两年求职面试的高频技术关键词 [8][9] - 第三章聚焦二段式端到端,解析其定义、出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新的Plan-R1等工作 [9] - 第四章作为课程精华,深入讲解一段式端到端的各个子领域:基于感知的UniAD、基于世界模型、基于扩散模型以及基于VLA的方法 [10] - 第五章设置RLHF微调大作业,进行实战演练,内容包括预训练与强化学习模块搭建,该技能可迁移至VLA相关算法 [11][13] 关键技术详解与实战案例 - 基于感知的一段式方法将讲解奠基之作UniAD、地平线VAD以及CVPR'24的PARA-Drive [12] - 基于世界模型的方法将讲解AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA,世界模型技术方向热门,应用广泛,包括场景生成、端到端驾驶和闭环仿真 [12] - 基于扩散模型的方法将讲解业内应用广泛的DiffusionDrive、Diffusion Planner和吉大的DiffE2E,并配有Diffusion Planner实战,扩散模型用于多模轨迹预测以更好适应环境不确定性 [12] - 基于VLA的方法将讲解小米的ORION、慕尼黑工大的OpenDriveVLA以及最新的ReCogDrive,并以小米ORION(截至2025年7月已开源推理和评测模块)作为实战案例 [12] - 课程第二章将详细拆解多项基础技术:从Transformer扩展到视觉Transformer,讲解CLIP和LLaVA;详解BEV感知在3D检测、车道线、OCC、轨迹预测与规划中的应用;讲解扩散模型理论;以及VLM相关的强化学习技术如RLHF和GRPO [11] 课程目标与受众要求 - 该课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地 [14] - 期望学员学完后能达到具备1年左右经验的端到端自动驾驶算法工程师水平 [16] - 学员需自备GPU,推荐算力在RTX 4090及以上;需具备一定的自动驾驶领域基础,熟悉基本模块;了解transformer大模型、强化学习、BEV感知等基本概念;具备概率论、线性代数基础及Python和PyTorch编程能力 [16] - 课程收获包括:掌握涵盖一段式、两段式、世界模型、扩散模型等的端到端技术框架;对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻理解;可复现扩散模型、VLA等主流算法框架;能够将所学应用于实际项目设计 [16]