自动驾驶之心
搜索文档
博世拿下百亿ADAS订单
自动驾驶之心· 2025-12-19 08:05
文章核心观点 - 丰田与博世达成的百亿级全球ADAS项目合作,标志着智能驾驶行业的竞争从中国区域“内卷”全面升级为全球范围内的“体系化竞合”,并为全球智驾供应商选择立下了“行业标尺” [5] - 此次合作凸显了智能驾驶全球化竞争的核心已从区域技术比拼,转向全球范围内的工程落地、合规网络构建与本地化生态适配能力 [6][9] - 对于中国车企而言,智驾能力已从产品“加分项”变为出海“必答题”,必须直面全球化工程落地与本地化适配的挑战,并需寻求具备全球合规与本地化运营能力的合作伙伴 [6][10] 丰田与博世合作概述 - 丰田正式敲定百亿级全球ADAS项目合作伙伴,最终选择博世,这是目前全球智驾领域规模最大的单笔项目 [5] - 项目覆盖北美、欧盟、英国、日本等核心主力市场,可实现L2级智驾功能,包含高速NOA [5] - 合作双方分别是全球汽车销量龙头丰田与全球顶级Tier 1供应商博世,被视为全球汽车产业“顶流资源”的战略锚定 [5] 合作背后的行业意义与转向 - 宣告跨国车企已全面加速智驾全球化进程,行业竞争主场从中国拓展至全球全域 [6] - 智驾竞争的核心正从区域技术炫技,转向全球范围内的工程落地与生态适配 [6] - 对供应商的评价标准超越单纯技术参数,更看重覆盖全球核心市场的合规网络、本地化需求匹配及运营生态搭建能力 [7] 博世的竞争优势分析 - 博世拥有深度渗透全球各区域的渠道网络与服务体系,能为丰田搭建从技术适配、法规对接到落地运营、售后保障的全链条合规体系 [7] - 即便在中国市场,博世也展现出进化能力,于今年行业首发量产一段式端到端方案,并击败其他头部智驾公司实现量产落地 [8] - 在“油电同智”的蓝海市场具备主场优势,博世在油车时代深度参与全球主流车企智驾项目,且其生产油车动力系统核心零部件,对系统理解深刻,能深度协同 [8][9] - 传统车企加速补齐油车与混动车型智驾功能,为行业带来近1500万辆的潜在增量,而博世在油车智驾工程落地经验上具有优势 [8] 对中国车企的启示与挑战 - 中国车企的“智驾出海”面临不同国家的地缘壁垒、迥异法规体系、多元用户习惯等核心痛点,必须拿出能真正落地的工程方案 [6] - 智驾全球化的终极较量是“谁更懂本地”的综合实力博弈,而非单纯技术参数比拼 [9][10] - 中国车企若想在全球竞赛中占据一席之地,需借势找到具备全球合规网络与本地化深度运营能力的合作伙伴 [10]
端到端落地中可以参考的七个Project
自动驾驶之心· 2025-12-19 08:05
行业技术趋势与人才需求 - 自动驾驶行业端到端技术路线已被头部玩家验证可行 其他车企正跟进投入人力和资源 [2] - 导航信息、强化学习、扩散模型、自回归、时空联合规划是当前端到端量产落地最重要的技术栈 [2] - 行业面临人才挑战 候选人往往只懂部分技术 在导航信息引入、强化学习调优、轨迹建模优化等具体量产经验上存在痛点 [2] 课程核心内容与结构 - 课程为期三个月 包含七个实战项目 聚焦量产应用 [2] - 课程核心算法涵盖一段式端到端、两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 课程最终章节将分享从数据、模型、场景、规则等多视角的量产经验 [14] 技术模块详解 - **第一章:端到端任务概述** 介绍感知任务合并与规控算法learning化的主流趋势 讲解感知模型一体化架构和规控learning化方案 并介绍开源数据集与评测方式 [7] - **第二章:两段式端到端算法** 讲解两段式框架建模及感知与PNC信息传递方式 分析其优缺点 并通过PLUTO算法进行实战 [8] - **第三章:一段式端到端算法** 介绍一段式框架 其可实现信息无损传递 性能优于两段式 涵盖基于VLA和基于Diffusion等方法 并通过VAD系列进行深入学习 [9] - **第四章:导航信息量产应用** 讲解导航地图的格式与内容 及其在端到端模型中的编码与嵌入方式 以更有效发挥导航能力 [10] - **第五章:自动驾驶中的RL算法** 在模仿学习基础上引入强化学习以解决人类驾驶风格差异和corner-case场景数据稀缺问题 实现模型泛化 重点介绍强化学习算法及训练策略 [11] - **第六章:端到端轨迹输出优化** 进行nn planner项目实战 包括基于模仿学习的扩散模型与自回归算法 以及后续的强化学习算法 [12] - **第七章:时空联合规划兜底方案** 介绍量产中用于轨迹平滑优化的后处理兜底逻辑 包括多模态轨迹打分搜索算法和轨迹平滑算法 以保证输出轨迹稳定可靠 [13] 课程安排与学员要求 - 课程采用离线视频教学 配合VIP群答疑及三次线上答疑 答疑服务截止2026年11月30日 [15] - 课程从11月30日开始 按周或双周解锁新章节 至次年2月24日完成全部八章内容 [16][18] - 课程面向进阶学员 建议自备算力在4090及以上的GPU 并熟悉BEV感知、视觉Transformer、端到端算法、强化学习、扩散模型理论 具备Python、PyTorch及mmdet3d框架基础 [17]
清华UniMM-V2X:基于MOE的多层次融合端到端V2X框架
自动驾驶之心· 2025-12-19 08:05
文章核心观点 - 传统的模块化自动驾驶系统存在误差传递和泛化能力有限的问题,而单体端到端系统在应对罕见事件和预测他车意图方面能力不足,车联网(V2X)通信是克服这些局限性的关键技术 [1] - 提出的UniMM-V2X框架首次在多智能体端到端自动驾驶中实现了感知与预测的多级协同,并引入混合专家模型(MoE)架构,为不同任务动态定制特征,在感知、预测和规划任务上均达到当前最佳性能 [1][7] - 该框架通过多级融合与MoE的深度协同,为实现更安全、更具可解释性的协同自动驾驶提供了全新方案,并展现出在实际场景中部署的潜力 [1][25] 技术框架与核心特点 - **框架组成**:UniMM-V2X由图像编码器、协同感知模块以及协同预测与规划模块三部分组成,感知与预测层面的融合构成了统一的多级融合框架 [8] - **MoE架构应用**:在BEV编码器和运动解码器中均部署了MoE架构,编码器为检测、跟踪、建图、运动预测等下游任务生成任务自适应的BEV特征,解码器通过针对特定运动的专家分支提升规划质量 [6][9][11] - **多层级融合机制**: - 感知级融合:采用注意力机制建模智能体间查询关系,进行加权特征融合,克服了依赖固定距离阈值方法的局限性,实现了上下文感知和空间敏感性的特征融合 [12][14] - 预测级融合:通过旋转矩阵转换坐标,并利用注意力机制整合感知上下文,为复杂多智能体场景下的运动推理提供先验信息 [12][14] - **核心贡献**:首次探索多智能体端到端自动驾驶中的多级协同;在编码器和解码器中均引入MoE以增强灵活性与专业化;通过实验验证了多级融合与MoE结合的强大互补效应 [7] 性能表现与实验结果 - **规划性能**:在DAIR-V2X数据集上,UniMM-V2X实现了最低的平均L2误差(1.49米),优于所有基准模型,同时展现出卓越的安全性,3秒平均碰撞率仅为0.12% [15][16] - **感知性能**:与最先进的端到端协同驾驶框架相比,在不增加感知层额外通信成本的前提下,检测性能(mAP)提升了39.7%,跟踪性能(AMOTA)提升了77.2% [17][18] - **预测性能**:取得了最佳的运动预测性能,最小平均位移误差(minADE)为0.64米,最小最终位移误差(minFDE)为0.69米 [19][20] - **综合提升**:该框架使检测性能提升39.7%,跟踪性能提升77.2%,运动预测误差降低7.2%,L2规划误差降低33.2%,碰撞率降低52.0% [7][25] 技术有效性分析 - **多级融合的作用**:感知级融合提升了检测和跟踪性能,但对运动预测和规划影响有限;预测级融合通过提供补充运动线索增强了规划安全性;单层融合不足以优化所有驾驶任务,多级融合确保了高质量中间特征的传播,实现了所有模块的性能提升 [22] - **MoE架构的作用**:仅在BEV编码器中集成MoE增强了环境理解能力,提升了单车感知和规划性能;仅在运动解码器中使用MoE收益有限;当MoE同时应用于编码器和解码器时取得最佳结果,此时编码器产生任务感知特征,解码器利用专家专业化能力捕捉复杂运动行为 [22] - **消融实验证明**:多层级融合与MoE设计的结合对驾驶性能提升有效,表4详细展示了不同配置下的性能对比 [23] 系统实用性与部署潜力 - **通信效率**:与消耗大量带宽的BEV特征传输方法不同,该框架在不牺牲规划质量的前提下,将通信成本大幅降低了87.9倍 [24] - **运行效率**:UniMM-V2X达到了5.4 FPS的帧率,集成MoE和多级融合机制导致速度轻微下降,但相对于规划安全性和可靠性的显著提升,成本效益比极佳 [24] - **环境适应性**:在不同带宽条件下均表现良好,能够有效利用可用通信带宽进行协同规划,确保了在真实世界自动驾驶场景下的可靠性和可扩展性 [24][27] - **部署前景**:该框架在不同带宽约束下展现出了可靠性,突显了其在现实世界协同驾驶中的实际部署潜力,为多智能体协同驾驶的未来提供了一条清晰的技术路线 [25]
特斯拉再一次预判潮水的方向
自动驾驶之心· 2025-12-18 17:35
文章核心观点 - 特斯拉通过其AI负责人发布的长文,系统性阐述了其FSD的技术方法论,核心是采用端到端神经网络模型,并融合了视觉重建(世界模型)和语言解释(VLA)技术来解决自动驾驶的长尾问题[4][6][8][10] - 行业对端到端、VLA(视觉-语言-动作)和世界模型三大技术概念存在争论,但文章提出反共识观点,认为三者并非对立,而是层层递进的关系:端到端是基座,VLA是升级,世界模型是终极形态[11][12] - 特斯拉的技术路径预判并整合了当前所有主流技术方向,其闭麦两年后通过一篇论文强势回归,再次引领行业技术潮流[4][20] 技术概念解析与关系 - **端到端神经网络**:是一个完全颠覆性的模型,需要将所有的设计思路、代码编写、验证方式全部推倒重来,被视为自动驾驶行业一次彻底的升级变革[11] - **VLA(视觉-语言-动作)**:本质上是端到端模型的延伸,在模型中加入了语言(Language)信息,其核心并非多一个信息输入,而是让模型通过语言方式将信息可视化输出[12] - **世界模型**:通俗理解是根据提示生成视频,目标是建立基于视频/图像的“时空认知”,以弥补语言模型在低带宽和信息描述上的短板[12][15][16] - **三者关系**:端到端是基座,VLA是在此基础上加入语言模型的升级,世界模型则是对空间的理解和重塑,与前两者不同,三者是层层递进而非非此即彼[12][19] 行业技术路线与玩家格局 - **端到端路线**:主要由智驾公司推动,如地平线、博世、Momenta,因其成本相对较低、稳定度高且易于规模化部署[13] - **VLA路线**:理想、小鹏、元戎启行是主要拥趸者,但该路线的长期价值遭到华为和蔚来高层的反对[13] - **世界模型路线**:华为和蔚来是主要拥趸者,认为自动驾驶更需要“时空认知”或“空间智能”,而非依赖语言通道[13][16] - **技术融合现状**:端到端与规则代码并不冲突,头部企业如华为在采用端到端方案时仍会使用规则兜底[11] 目前行业存在一段式和两段式端到端方案并存的局面[11] 在实际系统中,为保障高效运转,通常会组合使用多个模型,并可能加入强化学习[19] 特斯拉的技术方案与创新 - **解决端到端模型调试难题**:提出两种方法,一是利用“生成式高斯泼溅”技术在220毫秒内根据摄像头视频实时生成动态3D环境模型(视觉重建/世界模拟器)[8] 二是训练AI用自然语言解释自身行为,一个小型化语言推理模型已在FSD v14.x版本中运行[10] - **云端训练与仿真**:在云端开发“神经世界模拟器”,这是一个能实时生成以假乱真虚拟世界的强大AI,用于对FSD进行极端场景的压力测试和7x24小时训练,再将训练好的模型下放到车端实现降维打击[17] 技术发展的本质与趋势 - **端到端的意义**:标志着自动驾驶真正由人工规则进入智能学习的开始[19] - **VLA的争议核心**:争议焦点在于将所有信息转换为语言是否必要,反对者认为智能驾驶的本质更需要对空间的理解而非语言能力[16] - **世界模型的目标**:旨在补齐语言模型在“时空认知”上的短板,直接建立高带宽的认知系统[15][16] - **系统架构演进**:从理想早期包含端到端和VLM两个模型的“快慢思考”架构,到VLA的单一模型决策,再到世界模型与端到端等多个模型的组合,系统架构随技术演进不断变化[19] - **学习模式进化**:行业趋势正从模仿学习转向强化学习,让系统通过探索“好的行为”并获得奖励来超越人类驾驶水平[19]
开源首次追平GPT-5!DeepSeek-V3.2:推理与效率兼得
自动驾驶之心· 2025-12-18 17:35
文章核心观点 DeepSeek-V3.2通过三大核心技术突破,在多项关键性能上追平甚至超越了顶级闭源大语言模型,证明了开源模型通过架构创新、算力投入与数据工程的结合,完全有能力挑战闭源模型的主导地位,为开源模型的发展树立了新的里程碑 [2][43] 开源模型的痛点与破局方案 - **传统开源模型面临三大核心困境**:在架构层面,依赖标准注意力机制导致长序列计算复杂度高(O(L²)),推理速度慢 [7];在资源分配上,后训练阶段算力投入不足,导致数学推理、代码生成等硬核任务性能难以提升 [7];在智能体能力方面,在工具使用、场景泛化和指令遵循等关键指标上与闭源模型存在明显差距 [7] - **DeepSeek-V3.2的针对性破局方案**:通过创新注意力机制解决效率问题,通过加大后训练算力投入提升硬核性能,通过大规模智能体任务合成流水线强化工具使用与泛化能力 [8] 核心技术解析:DeepSeek稀疏注意力(DSA) - **核心创新与效率提升**:引入DeepSeek稀疏注意力(DSA)机制,通过“闪电索引器+细粒度token选择”的双组件设计,将核心注意力计算复杂度从O(L²)降至O(Lk)(k远小于序列长度L)[10][11] 对于128K长度的长序列,k值通常设置为2048,仅需处理传统计算量的1.6%(2048/128000),效率提升极为显著 [15] - **闪电索引器设计**:采用少量索引头(H¹)和FP8精度进行计算,相较于传统机制的FP16/FP32精度,计算量显著降低,同时通过特定计算逻辑生成索引得分,兼顾效率与准确性 [12][13] - **两阶段训练策略**:训练分为密集预热和稀疏训练两个关键阶段,确保DSA在长上下文任务中实现端到端显著提速,且在短文本任务上未出现性能退化 [17][19][20] 核心技术解析:可扩展强化学习框架 - **算力投入**:将后续训练的算力预算提升至预训练成本的10%以上,通过稳定的训练框架充分释放算力价值,实现了推理性能的跨越式提升 [21] - **高性能变体成果**:推出高性能变体DeepSeek-V3.2-Speciale,该变体在IMO 2025、IOI 2025、ICPC世界总决赛2025等顶级赛事中均斩获金牌,性能比肩Gemini-3.0-Pro,成为首个在国际顶级竞赛中达到金牌水平的开源模型 [23] 核心技术解析:大规模智能体任务合成 - **冷启动阶段**:采用DeepSeek-V3的方法论,通过提示工程引导和数据混合采样,将模型的推理能力与工具使用能力在训练初期进行对齐和融合,为后续强化学习提供高质量的初始策略 [25][29][35] - **大规模任务合成流水线**:构建自动化智能体任务合成流水线,生成大规模、多样化、高质量的智能体训练数据,具体包括通用智能体、搜索智能体、代码智能体和代码解释器智能体等类型 [30][32][36] - **策略成效**:系统性提升了模型在工具使用场景中的泛化能力与指令遵循性,在MCP-Universe、MCP-Mark等未见过的工具使用基准测试中表现出色,证明了其能将推理策略泛化到域外的智能体场景 [33][36] 模型实测表现 - **推理能力**:在MMLU-Pro(85.0)、GPQA Diamond(82.4)等通用基准上与GPT-5-High水平相当 [39][40] 在数学领域,AIME 2025通过率达93.1%,HMMT 2025二月赛通过率92.5%,均处于开源模型前列 [39][40] - **代码能力**:在LiveCodeBench的COT模式下通过率83.3%,Codeforces评级达2386分,在SWE-Verified(软件工程师验证基准)中解决率73.1%,显著优于其他开源模型 [39][40] - **工具使用能力**:在中文搜索基准BrowseCompZh中通过率达65.0%,在τ²-bench中通过率80.3%,在MCP-Universe中成功率45.9%,大幅缩小了与闭源模型的差距 [39][41] - **成本效率**:通过DSA机制,模型在H800 GPU上的推理成本显著低于前代产品,长序列解码时的成本优势尤为明显 [27][41]
世界模型是一种实现端到端自驾的途径......
自动驾驶之心· 2025-12-18 11:18
文章核心观点 - 世界模型并非端到端自动驾驶本身,而是一种实现端到端自动驾驶的技术途径[2][5] - 端到端自动驾驶定义为没有显式信息处理与决策逻辑,从信息输入直接输出决策结果的模型[3] - 世界模型定义为接受信息输入,内在建立对环境的完整认知,能够重建和预测未来变化的模型[4] - 行业正通过推出专业课程,系统性地传授世界模型在自动驾驶领域的算法、应用与实战经验,以推动技术落地和人才培养[5][15] 课程内容与结构 - 课程共分六章,从概述、基础知识到前沿模型、实战应用及行业经验,系统覆盖世界模型技术栈[10][11][12][13][14] - 第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同技术流派及其在业界解决的问题环节[10] - 第二章讲解世界模型涉及的背景知识,包括场景表征、Transformer、BEV感知等,是求职面试高频技术点[10][11] - 第三章探讨通用世界模型,解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、导航世界模型、DriveVLA-W0及特斯拉世界模型模拟器等热门工作[11] - 第四章聚焦视频生成类世界模型,涵盖Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等经典与前沿工作,并以商汤OpenDWM进行实战[12] - 第五章聚焦OCC生成类世界模型,涵盖清华OccWorld、复旦OccLLaMA、华科HERMES、西交II-World等三大论文及一个项目实战,该方法可扩展至自车轨迹规划[13][17] - 第六章分享世界模型在工业界的应用现状、行业痛点、解决目标以及相关岗位的面试准备与公司关注点等实战经验[14] 讲师与课程目标 - 讲师Jason拥有C9本科与QS50博士背景,发表多篇CCF-A/B论文,现任国内TOP主机厂算法专家,主持并完成多项自动驾驶感知与端到端算法的量产交付,具备丰富的研发与实战经验[7] - 课程是首个面向端到端自动驾驶的进阶实战教程,旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端[15] - 课程期望使学员达到相当于1年左右经验的世界模型自动驾驶算法工程师水平,掌握技术进展并能复现主流算法框架[18] - 学员需自备推荐算力在4090及以上的GPU,并具备自动驾驶基础、Transformer大模型、扩散模型、BEV感知、概率论、线性代数及Python/PyTorch编程基础[18] 课程安排与形式 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,辅以VIP群答疑及三次线上答疑,答疑服务截止2026年12月31日[19] - 章节内容按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁[20]
纯图像理解的时代该翻篇了!MMDrive:给自动驾驶装上「多模态大脑」
自动驾驶之心· 2025-12-18 11:18
文章核心观点 - 传统自动驾驶视觉语言模型在复杂真实路况中存在三维感知能力不足、语义融合有限、关键信息提取效率低等瓶颈,需要从“图像理解”向“场景理解”进行范式转换 [2][3] - 研究提出的MMDrive模型通过融合多模态信息、引入文本导向的多模态调制器和跨模态抽象器,构建了更立体、更智能的场景理解能力,在权威基准测试中性能领先,尤其在复杂和低能见度场景中表现出更强的鲁棒性 [5][8][30] - 该技术框架为自动驾驶高阶感知、仿真测试、智能交通及驾驶辅助等应用提供了新的可能性,代表了行业技术发展的一个重要方向 [31] 传统方法的局限性 - 主流自动驾驶视觉语言模型采用“图像+文本”双分支架构,视觉与文本特征仅进行硬拼接,缺乏深度交互,限制了跨模态语义对齐 [3] - 模型基于二维图像,难以表达深度、空间布局等关键三维信息,在遮挡、恶劣天气等复杂动态环境中关键信息提取效率低 [3][5] - 仅依靠前向摄像头图像,在遮挡等情况下无法准确判断场景全貌(如后方车辆状态),揭示了平面视觉感知的固有缺陷 [5] MMDrive的核心技术突破 - **多模态信息融合**:模型引入了三类互补信息源——提供稠密三维空间结构的占据栅格地图、提供精确几何与深度信息的激光雷达点云,以及通过两阶段策略生成的高层语义文本场景描述,共同构建立体场景表征 [12][15] - **文本导向的多模态调制器**:该组件能根据输入文本问题的语义内容,动态调整不同模态信息的融合权重,实现问题感知的自适应特征融合,避免信息稀释 [17][20] - **跨模态抽象器**:该组件通过学习一组“抽象令牌”来提取跨模态的关键信息,形成紧凑的语义摘要,使大语言模型能更高效地聚焦核心内容,实验表明16个抽象令牌是性能最佳配置 [21] 实验结果与性能表现 - **定量结果领先**:在DriveLM基准测试中,MMDrive在BLEU-4、METEOR、ROUGE-L、CIDEr四项指标上分别达到54.56、41.78、75.27和3.63,全面超越对比模型 [22] - **细分任务优势明显**:在NuScenes-QA基准测试中,MMDrive在计数、状态查询、比较类问题上表现突出,其整体准确率达到62.7,显著高于其他对比方法 [24] - **定性结果稳健**:在夜间、雨天等低能见度场景中,模型仍能保持较高的判断准确率,并能识别传统方法易忽略的细节(如与背景颜色相近的标志牌、远处小型物体) [26][30] 应用前景与未来展望 - **自动驾驶系统**:可作为高阶感知模块,用于复杂路口理解、施工区识别和异常事件判断,并为预测与规划模块提供丰富的语义场景表示 [31] - **仿真与测试**:可用于生成高质量场景描述以测试系统语义理解能力,并支持多模态问答用于驾驶员行为分析与系统评估 [31] - **智能交通与车路协同**:通过车路多模态信息融合提升全域交通态势感知,支持自然语言交互的交通指挥与调度系统 [31] - **驾驶教育与辅助**:为驾考模拟与危险场景教学提供可解释的问答支持,增强ADAS系统的交互能力 [31] - **技术演进方向**:未来研究将围绕长时序预测与协同规划、模型轻量化以适应车载部署,以及生成可解释的决策推理链条展开 [31]
端到端VLA的入门进阶和求职,我们配备了完整的学习路线图!
自动驾驶之心· 2025-12-18 08:06
行业人才需求与趋势 - 近期多家行业中游厂商积极寻求端到端自动驾驶和视觉语言动作模型方向的技术人才 计划在明年投入更多资源进行技术落地 [2] - 对于经验丰富的专家级人才 行业提供的薪酬水平普遍在百万年薪起步 显示出市场对高端技术人才的强烈需求和竞争 [2] 行业培训课程概况 - 为应对工业界明确的技术需求 行业推出了多个聚焦于量产落地的实战培训课程 包括《面向量产的端到端实战小班课》、《端到端与VLA自动驾驶小班课》和《自动驾驶VLA和大模型实战课程》旨在打通从入门、进阶到求职的全链条 [4] - 课程由来自顶尖企业和学术机构的专家授课 师资背景强大 均拥有C9及QS排名前列高校的学历 并在国际顶级会议发表多篇论文 且具备将前沿算法成功量产落地的实战经验 [6][9][14][15] 端到端自动驾驶量产课程 - 该课程聚焦于端到端自动驾驶的量产落地 详细讲解导航信息应用、强化学习优化、Diffusion和自回归模型的量产经验以及时空联合规划兜底等核心模块 [4] - 课程设计了七大落地实战项目 目标人群为已经从事端到端自动驾驶相关工作并希望进阶加薪的从业者 [4] 端到端与VLA宏观技术课程 - 该课程从宏观领域梳理端到端自动驾驶 涵盖一段式/两段式方向的重点算法和理论基础 详细讲解BEV感知、大语言模型、扩散模型和强化学习 [7] - 课程包含两大实战项目 分别是基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [7] 自动驾驶VLA与大模型实战课程 - 该课程由学术界专家带队 全面梳理视觉语言动作模型领域 涵盖从视觉语言模型作为解释器到模块化VLA、一体化VLA以及当前主流的推理增强VLA三大方向 [12] - 课程配套详细的理论基础梳理 包括视觉、语言、动作三大模块以及强化学习和扩散模型等 并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [12] - 课程对学员有明确的先决条件要求 包括需要自备算力在4090及以上的GPU、具备自动驾驶领域基础、了解Transformer大模型等技术的基本概念、拥有一定的数学和编程基础 [11]
从具身到自驾,VLA和世界模型的融合趋势已经形成......
自动驾驶之心· 2025-12-18 08:06
文章核心观点 自动驾驶领域的两大前沿技术路线——视觉-语言-行动模型与世界模型——正呈现出明显的融合趋势,旨在共同塑造一个“既会思考,又会沟通”的终极驾驶大脑,以解决传统模块化方案和早期端到端模型的局限性 [1][16][47] 技术路线解析:VLA - **定义与目标**:VLA 是“视觉-语言-行动”模型,旨在实现人车交互与可解释的端到端自动驾驶,其核心是将人类语言指令融入系统,让车辆“能听懂、会解释、直接开” [4][11] - **系统架构**:采用输入-中间层-输出的“三明治架构” [5] - **输入端**:融合多摄像头图像生成的BEV/体素表征、激光雷达/毫米波雷达数据以及人类语言指令 [5] - **中间层**:由视觉编码器、基于大语言模型的处理器和动作解码器构成,进行统一推理与决策生成 [5] - **输出端**:直接输出车辆的低层控制指令或未来数秒的行驶轨迹 [6] - **核心优势**:交互自然、可解释性强,并能利用语言常识处理复杂语义场景 [11] - **当前挑战**:面临语言与行动对齐困难、算力需求大等难题 [11] 技术路线解析:World Model - **定义与目标**:世界模型是一种生成式时空神经网络系统,旨在为自动驾驶系统构建一个可预测和仿真的内部世界,使其具备“在脑海中预演未来”的能力,从而支持更安全、前瞻的规划 [8][11] - **系统架构**:同样遵循输入-核心模型-输出的架构 [9] - **输入端**:侧重于时序的多模态传感器数据及自车状态,专注于对物理世界状态的建模 [9] - **核心层**:由编码器、记忆模块和生成式预测模块构成,负责状态编码与未来场景的生成式推演 [10] - **输出端**:生成未来场景的丰富表征,如图像序列、BEV地图或4D占据栅格,为下游规划模块提供前瞻信息,而非直接控制车辆 [10] - **核心优势**:能够预测和仿真未来,方便量化风险,并可通过仿真生成大量极端案例数据 [11] - **当前挑战**:缺乏高级语义理解、实时高保真推演的计算成本高,且本身不直接产出驾驶策略 [11] VLA与世界模型的异同 - **主要区别**:两者在目标、输入输出、核心技术及优势挑战上存在显著差异,具体对比如文章中的表格所示 [11] - **内在联系**:尽管路径不同,但二者存在多方面的共同点 [12][13][14][15] - **技术起源一致**:均源于对传统模块化流水线和早期“黑箱”端到端模型的反思 [12] - **终极目标一致**:都是为了让自动驾驶系统具备类人的认知与决策能力 [13] - **关键挑战一致**:都需要解决剩余20%的极端案例难题 [14] - **技术底层一致**:都重度依赖“预训练+微调”的深度学习范式及Transformer等核心架构 [15] 技术融合趋势与实例 行业研究显示,VLA与世界模型的融合已成为明确趋势,旨在形成“感知-推理-仿真-决策-解释”的增强闭环 [16][21][47]。近期多项研究工作体现了这一融合方向: - **3D-VLA (2024.03)**:提出了一个融合3D感知、推理和动作生成的世界模型,其关键创新在于训练扩散模型来生成执行指令后的目标图像、深度图和点云,让模型具备“想象未来”的能力。在一个包含约200万个样本的3D具身指令数据集上训练,在3D推理定位等多任务上表现超越2D模型 [20][22] - **WorldVLA (2025.06)**:将VLA模型与世界模型统一于单一框架,实现动作与图像的联合理解与生成。在LIBERO基准测试中,其动作生成成功率超过同类离散动作模型约4%,视频生成质量优于单纯世界模型约10% [25][26][27] - **IRL-VLA (2025.08)**:提出基于逆强化学习奖励世界模型的闭环强化学习框架来训练VLA策略。在NAVSIM v2闭环驾驶基准上取得领先性能,并在CVPR 2025自动驾驶大挑战中获得亚军 [30][31] - **DriveVLA-W0 (2025.10)**:通过引入未来图像预测作为密集自监督任务,解决VLA模型“监督不足”的根本瓶颈。在NAVSIM基准测试中,仅用单目前置摄像头即超越多传感器基线模型。在大规模内部数据集上的实验表明,该方法能放大数据扩展定律 [34][35][36] - **WM-MoE (2025.10)**:提出首个基于世界模型,并融合专家混合网络与大型语言模型的运动预测框架,专门针对极端案例。在多个公开数据集上的实验表明,其在整体精度和极端案例处理上均超越现有先进方法 [39][40][41] - **FutureSightDrive (2025.11)**:引入视觉时空链式思考作为中间推理步骤,让VLA模型进行“视觉思考”。该框架首先生成包含物理合理先验信息的统一未来帧,再基于此进行轨迹规划,有效弥合感知与规划间的模态鸿沟 [44][45][46] 行业动态与展望 - 工业界已开始布局相关技术,例如华为强调其世界模型能力,小鹏汽车正在研发VLA 2.0,而理想汽车也在发布会上展示了相关理解,预示着将有更多厂商进入该领域 [47] - 下一代自动驾驶的发展方向预计将沿着VLA与世界模型深度融合的思路演进,构建具备闭环智能的驾驶系统 [47]
清华&小米DGGT:0.4秒完成4D高斯重建,性能提升50%!
自动驾驶之心· 2025-12-18 08:06
核心观点 - 清华大学与小米汽车联合推出DGGT框架,这是一个无需相机位姿标定、单次前向即可完成4D动态驾驶场景重建的模型,在速度、精度和跨数据集泛化能力上表现卓越,并具备强大的场景编辑功能,有望成为自动驾驶仿真与数据合成的核心工具 [1][6][21] 技术原理与架构 - DGGT采用Pose-Free设计,将相机位姿从输入转为模型输出,端到端预测内外参,从而打破跨数据集部署的校准壁垒 [6][8] - 模型采用ViT编码器融合DINO先验,通过多头联合预测结构,一次前向即可输出相机位姿、4D Gaussian、寿命、动态/运动、天空等完整的4D场景状态 [10][12] - 系统通过Lifespan Head建模场景随时间的外观演变,并通过单步扩散精修抑制运动插值伪影,提升时空一致性与渲染自然度 [3][12] 性能表现 - **重建速度与质量**:在Waymo数据集上,单场景推理时间约0.39秒,同时获得PSNR 27.41、SSIM 0.846的高保真重建质量,在速度与精度上优于前向与优化方法 [8][11] - **关键指标领先**:在Waymo数据集上,其深度误差(D-RMSE)为3.47,场景流估计误差(EPE3D)为0.183米,均优于对比方法 [11] - **零样本泛化能力强劲**:仅在Waymo上训练,无需微调即在nuScenes和Argoverse2数据集上实现超越SOTA的泛化性能,例如在nuScenes上LPIPS从0.394降至0.152(下降61.4%)[13][15] 核心优势与特点 - **强大的跨数据集泛化**:Pose-Free设计减少了对固定拍摄轨迹与相机配置的依赖,使模型在不同传感器布置下仍能维持良好性能,实现了跨域鲁棒性 [15] - **卓越的可扩展性**:支持任意数量的输入视角与长序列,当输入视角从4增至16时,其重建与新视角插值指标保持稳定,而对比方法性能明显下滑,更适合大规模工程化处理 [16] - **高度可编辑的4D场景生成**:模型输出包含相机姿态、深度、动态分割、3D Gaussian追踪等可编辑资产,支持在Gaussian层面直接对车辆、行人等实例进行添加、删除、移动等操作,扩散精修模块可自动补洞与平滑边界 [6][20][21] 组件功能与消融验证 - **Lifespan Head价值**:该组件负责刻画静态区域在不同时间的外观变化,消融实验显示,去除后PSNR从27.41大幅下降至24.21,证明其对维持时空一致性与真实感至关重要 [11][17] - **Motion Head作用**:负责预测像素级3D位移,将同一物体在相邻帧中对齐并插值,确保了运动物体在时间上的连续性与视觉自然度 [19] - **扩散精修效果**:虽然在定量指标上提升较小,但能有效抑制遮挡/插值产生的伪影与细节缺失,显著改善视觉效果,更适配下游任务 [11]