自动驾驶之心
搜索文档
自动驾驶L4技术交流群来了~
自动驾驶之心· 2026-01-09 08:47
文章核心观点 - 文章核心是推广一个专注于L4级自动驾驶赛道的线上交流社群 该社群旨在汇集关注该领域的专业人士 共同追踪行业动态[1] 社群关注方向 - 社群重点关注L4级自动驾驶领域的融资活动与技术发展进展[1] - 社群覆盖的具体应用场景包括:Robotaxi(自动驾驶出租车)、RoboBus(自动驾驶巴士)、RoboVan(自动驾驶厢式车)、无人配送、无人矿卡以及无人重卡[1]
TALO: 支持任意3D基础模型、任意相机配置的室外重建系统
自动驾驶之心· 2026-01-08 17:07
3D视觉基础模型在线增量重建的技术演进 - 3D视觉基础模型(如VGGT、π³、MapAnything)的出现,标志着三维重建进入端到端、数据驱动的新范式,能够从输入图像直接预测相机参数和稠密几何结构,简化流程并具备强大的跨场景泛化能力 [1] - 然而,现有基础模型主要针对离线场景设计,需要一次性访问完整图像序列,而自动驾驶等现实应用要求模型具备在线增量重建能力,能随着新数据到来增量式地重建新区域 [2] - 将通用基础模型扩展为鲁棒的在线增量重建系统是当前研究的关键问题,已有少数工作(如CUT3R)尝试直接支持在线重建,但在序列增长时稳定性显著退化,难以应对大规模室外真实场景 [2] 现有子地图对齐方法的策略与局限 - 一种直观思路是将长序列划分为子地图,分别用基础模型推理后再对齐,但子地图独立预测导致一致性难以保持,需要专门设计对齐机制 [3] - VGGT-Long采用Sim(3)对齐策略,具有7个自由度,保持角度与形状比例,仅允许整体尺度缩放,稳定性较好 [4] - VGGT-SLAM将对齐空间扩展至SL(4),拥有15个自由度,能建模更复杂甚至非刚性的几何畸变,但表达能力强的同时更容易引入数值不稳定性 [4] - 实验表明,在室外多相机设置下,SL(4)对齐方式高度脆弱,在跨数据集和基础模型的系统评测中,超过60%的场景重建失败;Sim(3)虽更稳定,但仍面临明显的轨迹漂移和几何伪影 [4] 现有全局线性对齐方法的根本性局限 - 现有方法隐含假设不同子地图间的几何差异在空间上是全局一致的,可通过单一全局线性变换对齐,但真实户外场景中,尤其在多相机和较小子地图规模下,几何误差通常随空间位置变化,全局线性变换会导致某些区域过拟合而另一些区域残留明显误差 [5] - 现有方法仅在相邻子地图间执行两两对齐,只能保证短期最优,在触发回环前无法利用非相邻子地图的信息,限制了实现全局一致性的能力 [5] - SL(4)由于其欠约束的高自由度,对基础模型预测几何中的噪声极为敏感,易产生退化解,例如异常的相机位姿和几何结构 [5] 本文提出的TALO对齐框架与核心贡献 - 本文提出即插即用的对齐框架TALO,旨在扩展通用基础模型实现全局一致的在线增量重建 [7] - TALO通过引入在空间上均匀分布、在时间上全局传播的稀疏控制点,跨子地图累积并融合多视角观测,结合薄板样条(TPS)变换模型,实现对子地图精细且空间自适应的几何对齐 [7] - TALO采用一种点云无关的子地图注册策略:不依赖噪声较大的点云,而是通过对重叠帧之间的相对相机位姿进行平均来对齐子地图间的坐标系,从而获得对基础模型预测的几何噪声具有天然鲁棒性的轨迹估计 [7] - 主要贡献包括:对现有基础模型对齐策略进行了系统性分析,揭示了其根本局限;提出了基于全局控制点传播与TPS的精细几何对齐策略,以及基于重叠相机位姿平均的鲁棒子地图注册策略;构建了即插即用的TALO系统,可无缝支持多种基础模型及任意相机配置 [9] TALO的核心技术模块:鲁棒子地图注册 - 子地图注册目的是估计一个3D变换,将一个子地图的坐标系映射到另一个子地图的坐标系中 [10] - 以往方法通过最小化两个子地图在重叠帧对应预测点云之间的对齐误差进行注册,但这类基于点云的配准方法会为补偿局部几何不一致而牺牲轨迹精度,并对预测结果中的几何噪声高度敏感 [11] - TALO选择基于重叠帧对应的相机位姿来估计变换,因为位姿预测相比点云预测具有更高的稳定性,通过对计算出的子地图间变换进行平均来获得最终变换,其中旋转部分采用Chordal旋转平均方法求解,平移部分直接算术平均 [11] - 实验表明,该子地图注册方式在长序列和多相机场景下,能显著降低轨迹发散和累计漂移的风险 [12] TALO的核心技术模块:控制点的构造与全局传播 - 控制点定义为真实三维世界中的一个固定空间位置,理想情况下应在所有子地图中保持不变 [14] - 由于子地图独立推理存在几何不一致性,同一物理空间位置在不同子地图中被重建为不同的三维点,全局控制点及其在各子地图中的观测共同编码了几何在时间和空间上的不一致 [16][17] - TALO的目标是构建一组全局控制点及其对应的规范位置,通过将观测对齐到规范位置来显式校正几何畸变 [18] - 控制点从预测点云中基于体素化提取,以保证在三维空间中的均匀覆盖,并利用基础模型的像素对齐特性,通过重叠帧在相邻子地图间建立控制点对应关系 [19] - 为实现全局一致性,控制点不仅在同邻子地图间构造连接,还沿整个序列进行前向和反向传播,在尽可能多的子地图中持续建立观测,构建一个全局连通的控制点图结构 [19] TALO的核心技术模块:基于TPS的精细几何对齐 - 给定全局控制点观测,首先通过对跨子地图观测进行鲁棒聚合(采用基于MAD的统计策略)来定义每个控制点的规范三维位置,以抑制动态区域与异常观测的影响 [20] - 在对齐前,对每个子地图中的控制点位移施加基于局部邻域结构的高斯加权局部空间平滑,以降低噪声并提升后续对齐稳定性 [21][22] - 采用三维薄板样条(TPS)映射对每个子地图进行非刚性校正,TPS是一种经典的基于核的连续映射,能在精确插值给定对应关系的同时最小化弯曲能量,保持全局光滑性的同时建模局部几何畸变 [23][24] - TPS映射参数通过最小化一个结合了对齐误差和平滑约束的能量函数进行估计,该问题具有快速闭式解 [26] - 该TPS对齐模块可在任意时刻触发,不再依赖于回环检测等外部机制即可逐步增强全局一致性 [28] 实验结果:轨迹精度与重建质量 - 在Waymo和nuScenes数据集上,TALO与VGGT-Long、VGGT-SLAM进行对比实验,TALO在所有数据集和基础模型(VGGT、π³、MapAnything)设置下均取得最优结果,且未出现任何重建失败场景 [29][30] - TALO的平均绝对轨迹误差(ATE)稳定在约1米左右,在旋转精度上提升尤为显著,例如在Waymo数据集上,TALO将相对旋转误差(RRE)从VGGT-Long的0.71°降低至0.14°,实现了近5倍的改进 [30][31] - VGGT-SLAM采用的SL(4)对齐方式在测试序列中超过60%的场景发生重建失败;VGGT-Long采用的Sim(3)对齐方式虽更稳定,但在缺乏回环的场景下仍容易累积明显的轨迹漂移 [31] - 点云重建质量评估显示,TALO在大多数场景和基础模型设置下取得最优表现,可视化结果表明TALO能够恢复更加准确且边界清晰的几何结构,有效消除以往方法中常见的多层伪影现象 [32][33]
当我们把端到端量产需要的能力展开后......
自动驾驶之心· 2026-01-08 17:07
自动驾驶端到端技术趋势与行业现状 - 端到端是当前自动驾驶行业最受欢迎的职位方向 [1] - 地平线HSD的成功促使行业重新审视一段式端到端架构的重要性 该架构使车辆能直接感知环境并生成动作序列 极大降低系统复杂度以应对更复杂场景 [2] - 纯模仿学习的端到端本质是复制数据分布 在实际落地中面临轨迹不稳定等问题 核心原因在于模型缺乏基于环境反馈的持续修正能力 [3][5] 端到端技术演进与解决方案 - 强化学习为端到端提供了从模仿走向优化的关键机制 通过引入奖励或价值信号对动作策略进行闭环优化 弥补模仿学习在分布外状态和误差累积上的不足 [4] - 行业头部公司已形成完整的模型迭代思路:模仿学习训练→闭环强化学习→规则兜底 并涉及导航信息引入 [6] - 量产落地面临诸多挑战 包括拥堵加塞、静态偏航、碰撞等复杂场景的数据挖掘与清洗问题 端到端是一个系统性问题而非单点技巧 [8] 端到端人才市场与课程内容 - 行业人才壁垒高导致薪资水平显著提升 五年以上的头部人才薪资在100万人民币起步且上不封顶 [7] - 大量从业者仅有论文基础 缺乏量产落地的系统经验 解决实际场景的能力较弱 [8] - 相关实战课程涵盖从任务概述、两段式与一段式算法框架、导航信息应用、强化学习算法到轨迹输出优化与时空联合规划兜底方案的全流程 并分享量产经验 [12][14][15][16][17][18][19][20][21] - 课程面向进阶学员 建议具备自动驾驶BEV感知、视觉Transformer、强化学习、扩散模型等算法基础 以及Python、PyTorch和MMDet3D框架的实践能力 并自备算力在4090及以上的GPU [22][23][25]
长安年终奖,四个月起步......
自动驾驶之心· 2026-01-08 13:58
公司经营与薪酬激励 - 网络传闻称某车企因销量和利润率未达年终目标而取消年终激励奖 该车企年度销量完成率为97% [2] - 长安汽车官方声明否认取消年终奖 称2025年公司整体经营态势稳健 已根据年度经营实绩制定并推进相应激励计划 [2] - 部分部门已完成激励方案宣贯 覆盖至经理层级 员工年终激励结构为4.3倍月薪加上3000元固定金额 预计在2月10日前发放完毕 [2] - 官方辟谣后网络争议反转 有其他车企员工在社交平台表达自嘲 [3] 行业动态与舆论反应 - 有媒体根据销量完成率97%推断取消年终奖的车企是长安汽车 社交平台上有疑似员工证实引发热议 [2] - 媒体报道从多位接近长安汽车的业内人士处获悉了激励方案的具体细节 [2] - 官方辟谣后 网络舆论出现反转 网友表达歉意和自嘲 [3]
搞自驾这七年,绝大多数的「数据闭环」都是伪闭环
自动驾驶之心· 2026-01-08 13:58
文章核心观点 - 当前自动驾驶行业所宣称的“数据闭环”大多停留在算法团队内部的“小闭环”,距离能够“数据直接解决问题”的“大闭环”或“真闭环”仍有显著差距 [1] - 实现“真闭环”需要满足问题发现自动化、解决效果可量化可复盘、投入产出可评估等多层要求,而目前行业普遍存在被动闭环、归因困难、链路断裂、组织结构制约等典型断点 [4][5][7][18] - 一套有效的实践方案是:从量化真实世界的“体感指标”出发,通过轻量高召回的车端触发机制、代码级统一的触发与验证体系、结合大模型的自动问题分类与分发,构建一个可演进的数据闭环系统 [24][25][41][43] - 未来的发展方向在于通过端到端架构和闭环仿真/世界模型等技术,降低解决每个问题的边际成本,使数据驱动从口号变为可规模化复制的基础设施 [84][85][88] 行业现状:理想与现实之间的差距 - **理想中的“真闭环”定义**:至少需要满足三层:1) 问题发现自动化,系统能从海量数据中自动发现异常行为并形成数据集;2) 解决效果可量化、可复盘,能持续追踪问题频率是否下降、是否引入新问题;3) 投入产出可评估,能判断每次数据、算力、开发投入是否值得 [4][5][7] - **行业普遍实践**:多数厂商的“数据闭环”实质是“数据驱动的研发流程加一些自动化工具”,且局限在单个算法团队的“小闭环”视角 [8] - **典型小闭环流程**:线上触发/抽取 → 清洗与标注 → 训练/回归 → 上线与监控,这更多是模块级、算法视角的闭环,而非系统级闭环 [9][13] 实现“真闭环”的主要挑战与断点 - **起点被动**:大量问题仍依赖司机反馈、运营投诉、领导试驾或人工刷录像等被动方式发现,是“问题驱动数据”,而非“数据自动发现问题” [10] - **归因困难**:同一现象(如急刹)背后常是感知、预测、规划、控制等多模块高度耦合的原因,缺乏体系化诊断工具,导致责任难以界定,效率低下 [12][15] - **链路不完整**:许多团队的闭环止步于“数据到模型”,即关注离线技术指标提升,但未追踪是否解决了哪个具体的线上真实业务问题 [16] - **自动化程度有限**:从问题发现、标注、训练、评估到上线的全流程中,人工干预环节仍占大头,系统更像高度自动化的生产线,而非可自我决策的“自愈系统” [17][21] - **组织架构制约**:感知、预测、规划、控制、地图等团队以及Tier1、整车厂等各方边界分明,OKR各异,导致系统级闭环被组织结构天然拆散 [18][22] 一套具体的数据闭环实践方案 - **核心理念**:从“体感指标”出发,用Trigger(触发器)把世界离散成token,再用大模型(LLM)做分类和路由,最后用统一代码串起“发现”和“验证” [25] - **量化真实痛点**:将急刹、接管、大幅转向等用户有感的“体感指标”作为第一公民,要求100%记录,并沉淀为“每万公里急刹车率”等可统计指标 [26][27][28] - **车端轻量触发机制**:在算力受限(如单颗Orin X)条件下,设计高召回、低开销的micro log机制,一旦发生疑似事件(如急刹),即打包关键状态信息上传,宁可多报,不能漏报 [30][32][33] - **云端验证与数据拉取**:云端对micro log进行规则/模型过滤,确认可信后,再下发任务拉取包含更多中间结果和短视频的mini log,实现按需、分层的数据上传,避免带宽浪费 [34][35][38][39] - **代码级统一**:将定义问题的Trigger逻辑代码在车端实时挖掘、云端历史数据挖掘、仿真验证评价三个场景中统一,确保从发现问题到验证修复的语义一致,无实现偏差 [41] - **问题自动分发体系**:将Trigger体系视为领域专用的tokenizer,将原始数据流转化为高层语义事件序列(token),再文本化后输入大模型,由大模型作为时序分类器进行根因归因和团队路由 [43][45][47] - **持续学习闭环**:利用研发人员在问题系统中真实的“改派”行为作为弱监督标签,持续回流训练大模型分类器,使其在真实业务分布下越用越准 [49] - **降低规则编写门槛**:所有Trigger逻辑用纯Python实现并统一接口,配合详细的文档和示例,并利用大模型辅助,让测试、运营等非算法人员也能用自然语言描述需求并生成可微调的Trigger代码 [50][54][55] - **量产环境解耦**:将数据挖掘Trigger设计为可云端下发的“配置”或运行在车端沙箱中的脚本,使其与主算法版本解耦,能灵活、快速地响应突发场景(如大雪天)的数据挖掘需求,而不影响系统安全与稳定性 [56][57] 数据管理与使用的关键见解 - **区分标签类型**:严格区分“世界标签”(如天气、道路类型、交通参与者数量)和“算法标签”(如感知框抖动、规划重规划频率),前者用于精细场景筛选,后者用于算法归因调参 [60][61] - **向量检索的正确用法**:向量检索适合作为“精筛”工具,而非“粗筛”主力面对海量数据时,应先用结构化标签规则过滤掉80%-90%的无关系数据,缩小范围后,再用向量检索进行语义级细筛,以提升效率和精度 [62][63][64] - **生成式/仿真数据的定位**:主要用于补充现实中难以凑齐的长尾场景训练数据(如临时路障、路面坑洼),以扩大模型“见世面”但最终用于评测和放行的评测集必须坚持使用真实数据,因为无法完全模拟真实世界 [66][67][69] - **监控模型副作用**:在引入生成数据提升召回时,需警惕误检(FP)在未知场景下恶化的风险采用对两个版本进行逐帧全量结果差分的方法,系统性监控差异模式,评估“涨得干不干净”,而不仅仅看召回率涨幅 [70][74][77] 未来展望与演进方向 - **当前本质**:现有体系更接近一个“Bug-Driven开发体系”,核心是更快、更准、更系统地发现、量化和跟踪具体问题(bug) [77][80] - **现存卡口**:当前主要瓶颈已从“发现问题”侧,转移到“谁来解决问题、怎么解决问题”侧,受限于人工标注成本、仿真验证的可信度以及研发人员带宽等刚性约束 [81][82][86] - **积极方向**:端到端/模仿学习架构的兴起,通过直接对齐人类驾驶行为,绕开了中间真值难标的问题;同时,闭环仿真/世界模型的快速发展,旨在让“在仿真里充分暴露问题、充分迭代”更接近真实世界 [84][87] - **最终目标**:通过降低解决每个问题的边际成本,并结合在Trigger体系、自动分类等工程实践上的积累,使“数据驱动”从口号变为一套能持续运行、可核算、能规模化复制的基础设施 [85][88]
随到随学!端到端与VLA自动驾驶小班课(视频+答疑)
自动驾驶之心· 2026-01-08 13:58
课程核心定位与目标 - 课程为端到端与VLA自动驾驶进阶实战教程,旨在推动端到端技术在工业界落地,助力学员理解端到端自动驾驶 [8] - 课程联合工业界专家开设,内容涵盖学术界与工业界最前沿的技术栈,包括BEV感知、视觉语言模型、扩散模型、强化学习等 [1] - 课程目标是使学员学完后能达到约1年经验的端到端自动驾驶算法工程师水平,掌握技术框架并能够复现主流算法 [13] 课程内容架构 - **第一章:端到端算法介绍** 概述端到端自动驾驶发展历史、概念起源、从模块化到端到端的演进,并分析一段式、二段式及VLA范式的优缺点与适用场景 [4] - **第二章:端到端的背景知识** 作为课程重点,详细讲解VLA涉及的大语言模型、扩散模型及强化学习,以及一段式端到端涉及的BEV感知,为后续学习奠定基础 [4][9] - **第三章:二段式端到端** 聚焦二段式端到端,解析其定义与出现原因,并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新工作Plan-R1,对比其与一段式端到端的优缺点 [5] - **第四章:一段式端到端与VLA** 作为课程精华部分,涵盖基于感知、世界模型、扩散模型及VLA的一段式端到端子领域,探讨各方法如何解决端到端终极目标 [6] - **第五章:课程大作业 - RLHF微调** 提供RLHF微调实战,涉及预训练与强化学习模块搭建及实验,该技术可迁移至VLA相关算法,具有良好延展性 [7] 关键技术深度解析 - **BEV感知** 讲解其基础知识,以及如何基于BEV实现自动驾驶核心感知任务,如3D检测、车道线识别、OCC及轨迹预测与规划 [9] - **扩散模型** 讲解其理论知识,并指出基于扩散模型输出多模轨迹是当前学术界与工业界热点,多家公司正尝试落地 [9] - **视觉大语言模型与强化学习** 讲解VLM相关的强化学习技术,包括RLHF及其在VLM训练中的作用,以及上半年热门技术GRPO [9] - **一段式端到端细分领域** 详细讲解基于感知的方法(如UniAD、地平线VAD、CVPR'24的PARA-Drive)、基于世界模型的方法(如AAAI'25的Drive-OccWorld、OccLLaMA)、基于扩散模型的方法(如DiffusionDrive、Diffusion Planner、DiffE2E)以及基于VLA的方法(如小米ORION、慕尼黑工大OpenDriveVLA、ReCogDrive) [10] 课程实战与前沿应用 - 课程包含配套实战,例如在扩散模型小节配套讲解Diffusion Planner实战,在VLA小节选择小米ORION作为实战,该开源项目截至2025年7月已开放推理与评测模块 [10] - 世界模型被强调为近两年非常热的技术方向,因其应用广泛,可用于场景生成、端到端驾驶及闭环仿真 [10] - VLA被视为目前端到端自动驾驶的皇冠,上限高且难度大,因此行业招聘需求旺盛,代表了新一代自动驾驶量产方案的预研方向 [10] 讲师资质与课程特色 - 讲师Jason拥有C9本科与QS50博士学历,已发表2篇CCF-A论文及若干CCF-B论文,现任国内TOP主机厂算法专家,从事端到端、大模型、世界模型等前沿算法的预研与量产,并主持完成多项自动驾驶感知与端到端算法的产品量产交付 [2] - 课程内容基本为工业界和学术界的Baseline,兼顾经典工作与最新前沿进展 [1] - 课程为小班课,随到随学,提供视频与答疑服务 [1] 学员收获与面向人群 - 学员将掌握端到端技术框架,涵盖一段式、两段式、世界模型、扩散模型等方法 [13] - 学员将对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻了解,并可复现扩散模型、VLA等主流算法框架 [13] - 学员能够将所学应用到项目中,真正搞懂如何设计自己的端到端模型,并可在实习、校招、社招中受益 [13] - 课程面向具备一定自动驾驶领域基础、熟悉Transformer大模型、强化学习、BEV感知等基本概念,并具备概率论、线性代数及Python、PyTorch语言基础的学员,学习需自备GPU,推荐算力在4090及以上 [11] 行业趋势与技能需求 - 端到端自动驾驶是学术界与工业界的前沿方向,VLA范式是目前发展的焦点 [1][10] - 第二章所涉及的背景知识被总结为未来两年求职面试频率最高的技术关键词 [5] - 基于扩散模型输出多模轨迹能更好地适应自动驾驶不确定的环境,是当前热点 [10]
本周六!一场关于自动驾驶L4的圆桌探讨:通向L4之路已经清晰?
自动驾驶之心· 2026-01-08 09:53
文章核心观点 - 高阶辅助驾驶已进入“准L4”的安心阶段 L2和L4的技术路线走向收敛 同一套模型可在L2和L4上复用 [3][4] - 2025年整个自动驾驶行业融资超过300亿 且集中在L4领域 L4的变化引起行业新的关注 [4] - 行业将举办一场重量级L4智驾圆桌 深入探讨自动驾驶L4的技术理想与商业现实的博弈 [4] 主讲嘉宾阵容 - 何贝 斯年智驾创始人、董事长 清华大学博士 原百度无人车科学家 发表相关论文30余篇 专利100余件 [5] - 苗乾坤 新石器无人车CTO 中科大博士 申请发明专利100多项 在自动驾驶领域有15年以上研发经验 主持研发的L4级城市物流配送无人车已在全国300多个城市、海外10多个国家商业化运营 累计交付15000辆 总行驶里程超过6000万公里 [6] - 王珂 卡尔动力AI研发副总裁 曾任美国自动驾驶公司Zoox感知Tracking模块负责人 [7] - 马千里 全球前三车企美国研发中心规控Tech Lead 约翰霍普金斯大学机器人博士 曾任Motional规划控制组Principal Engineer & Manager 主导Ioniq5 Robotaxi在拉斯维加斯上线Lyft和Uber的准商业化运营 [7] 主持人背景 - 崔迪潇 前智加科技首席科学家 前西安交通大学助理教授 拥有10年学术界乘用车无人驾驶研究经历 7年工业界商用车无人驾驶研发和量产落地运营经历 [8] - 崔迪潇拥有多项荣誉及社会兼职 包括国家“万人计划”科技创业领军人才 财富中国40岁以下最具潜力的商界精英 获IEEE智能交通协会杰出研究团队奖 中国智能车未来挑战赛第一名等 [9][10] 深度内容获取 - 完整版深度内容已独家上线知识星球「自动驾驶之心」 涵盖所有技术细节、QA及未公开彩蛋 [16] - 深度内容主题包括:FSD v14技术探讨 VLA与WA方案对比 学术与量产的分歧 技术路线较量 以及数据闭环工程等 [16]
理想在世界模型方向,布局了这些工作......
自动驾驶之心· 2026-01-07 17:44
文章核心观点 - 文章核心观点是复盘并梳理了理想汽车在自动驾驶世界模型领域的技术布局与研究方向,指出行业正围绕“重建+生成”的技术路径,以视频为核心构建时空认知系统,并介绍了相关的课程内容 [2][3] 理想汽车的世界模型技术布局 - 理想汽车对世界模型的定义是“重建+生成”,利用3DGS技术重建自动驾驶场景,再通过生成方法实现闭环仿真或场景生成 [2] - 其核心技术包括3DGS和生成方法,并有一系列相关研究成果,如中稿ICCV 2025的Hierarchy UGP(场景重建)、StyledStreets(多风格场景生成)、World4Drive(整合多模态驾驶意图与潜在世界模型)、GeoDrive(视频生成扩散世界模型),中稿ACMMM2025的OmniGen(统一生成视觉与lidar的框架),中稿NeurIPS 2025的RLGF(结合强化学习的视频生成世界模型),以及SparseWorld-TC(稀疏注意力4D OCC预测)和AD-R1(端到端闭环强化学习框架) [2] - 公司目前没有在车端深入利用世界模型能力,但已探索相关方向(如World4Drive) [3] 行业对世界模型的共识与现状 - 行业内普遍认为世界模型是围绕视频为核心搭建的时空认知系统,通过跨模态的互相预测和重建,让系统学习时空和物理规律 [3] - 通过“重建+生成”技术,既可以做云端的数据生成,也可以用于闭环仿真和测试 [3] - 业内世界模型主要涵盖几个技术块:3DGS重建、视频生成/OCC生成、以及Lidar点云生成 [3] - 特斯拉也在利用前馈GS做闭环仿真,据文章了解,很多中游厂商都在布局世界模型的预研和落地 [3] 世界模型的技术定义与学习挑战 - 世界模型的定义仍然模糊,存在“生成 = 世界模型?”或“生成 + 重建 = 世界模型”的困惑,导致新入行者容易“踩坑” [4] - 对于初学者而言,想要搞懂世界模型并完成数据生成、闭环仿真等任务非常困难,有的甚至踩坑半年无法入门 [5] 相关培训课程内容架构 - 课程第一章介绍世界模型与端到端自动驾驶的联系、发展历史、应用案例,以及不同流派(如纯仿真、仿真+Planning、生成传感器输入、生成感知结果)在业界的应用和解决的问题 [7] - 第二章讲解世界模型的基础知识,包括场景表征、Transformer、BEV感知等背景知识,这些是求职面试频率最高的技术关键词 [7][8] - 第三章探讨通用世界模型及热门工作,涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型,以及业界广泛讨论的VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [8] - 第四章聚焦视频生成类世界模型,讲解Wayve的GAIA-1 & GAIA-2、CVR'25 上交的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive,并以商汤开源的OpenDWM进行实战 [9] - 第五章聚焦OCC生成类世界模型,涉及三大论文讲解和一个项目实战,这类方法可扩展为自车轨迹规划以实现端到端 [10] - 第六章为世界模型岗位专题,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位面试准备 [11] - 课程背景知识部分详细复习Transformer、视觉Transformer、CLIP和LLAVA,介绍BEV感知、占用网络、扩散模型、闭环仿真、NeRF和3DGS,以及其他生成式模型如VAE、GAN和Next Token Prediction [13] - 课程涉及的OCC生成类工作包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World [14] - 课程面向具备一定基础的学习者,期望学完后能达到1年左右世界模型自动驾驶算法工程师水平,掌握技术进展,并能复现II-World、OpenDWM等主流算法框架 [15]
小米&杭电提出ParkGaussian:业内首个泊车场景重建算法,效果还不错
自动驾驶之心· 2026-01-07 17:44
ParkGaussian技术方案概述 - 小米汽车与杭州电子科技大学联合提出首个专为泊车场景三维重建设计的框架ParkGaussian,该框架将3D高斯泼溅技术适配于环视鱼眼传感器,并创新性地引入车位感知重建策略,以提升下游车位检测任务的性能[2][5][8] - ParkGaussian的核心贡献包括构建了首个泊车场景重建基准数据集ParkRecon3D,提出了融合无迹变换投影与可微分逆透视映射的技术方案,以及通过车位检测器提供任务驱动的监督信号,优化关键区域的重建保真度[8][13][16][20] ParkRecon3D基准数据集 - 该数据集基于AVM-SLAM开源数据扩展,采集于一个面积约24200平方米(220米×110米)、包含超过430个停车位的地下停车场,旨在解决泊车场景缺乏专用三维重建数据集的问题[11] - 数据集包含超过4万帧同步的多鱼眼相机图像(分辨率1280×960,采集频率10Hz)、6万个经过人工验证的停车位标注,以及通过COLMAP标定的相机外参,为模型训练与评估提供了全面的数据基础[5][8][11] 技术创新与核心方法 - **无迹变换投影**:为解决鱼眼相机强畸变下的投影问题,ParkGaussian集成了基于无迹变换的投影方法,无需为每个相机模型推导雅可比矩阵,在复杂条件下能生成更稳定的2D高斯足迹,提升了地下停车场景的几何重建稳定性[13][14][15] - **可微分逆透视映射**:通过一个完全可微分的IPM模块,将渲染的环视鱼眼图像转换为与下游检测器几何假设统一的鸟瞰图表示,使梯度能够反向传播至3D高斯表示,实现重建过程与下游感知任务的直接对齐[16][18][19] - **车位感知重建策略**:策略利用预训练的车位检测器(DMPR-PS和GCN-Parking)提取结构特征,通过构建混合车位感知权重图,将监督焦点集中在车位角点及边缘等高置信度关键几何区域,从而同步优化重建的视觉保真度与感知对齐度[20][25][32][33] 实验性能与结果 - **新视图合成质量**:在ParkRecon3D数据集上,ParkGaussian取得了最先进的渲染质量指标,例如在Scene1中,结合GCN-Parking的变体获得了PSNR 30.09、SSIM 0.93、LPIPS 0.20的优异表现,显著优于3DGUT、OmniRe等基线方法[47][48] - **下游车位检测性能**:车位感知重建策略大幅提升了停车位检测的精确率与召回率,例如在Scene1中,使用完整策略的ParkGaussian配合GCN-Parking检测器,精确率达到0.97,召回率达到0.43,接近在真实图像上的检测性能(精确率0.99,召回率0.49)[49][50] - **消融实验验证**:消融研究表明,完整的车位感知策略(融合教师-学生加权与分布对齐)在渲染质量与下游任务性能上均优于仅使用IPM监督、仅特征级监督或单一权重监督的变体,证实了结构先验与预测一致性结合的重要性[52][53][54] 行业意义与应用前景 - 该研究针对自动驾驶泊车这一关键任务,首次系统性地解决了地下停车场等无GPS、狭窄拥挤场景的高质量三维重建与仿真难题,弥补了现有驾驶仿真器主要关注道路场景的不足[2][3][4] - ParkGaussian框架及ParkRecon3D数据集为自动泊车系统的开发、训练与性能评估提供了高保真、与感知任务对齐的仿真工具,有望推动泊车感知、规划与控制等下游算法的进步[5][8][57]
全球占比飙升至80%,中国L4智驾扛起引领大旗......
自动驾驶之心· 2026-01-07 11:11
全球自动驾驶市场渗透趋势 - 摩根斯坦利报告将L4/L5级自动驾驶汽车全球市场渗透趋势划分为三个阶段:早期(2015-2030年)以L0和L1/2为主,L4/L5占比非常低;中期(2030-2040年)L0车型占比快速减少,L4/L5开始加速渗透;后期(2040-2050年)L4/L5将逐步成为道路车辆主流,最终占比接近全球车辆总量 [5] - 预计到2026年,中国占全球L4+自动驾驶车辆的比例将快速飙升至接近80%,之后虽有缓慢回落,但长期仍能保持20%以上的高占比 [3] - 从全球总量看,L4+车辆在2024年几乎为零,后续逐步稳步增长,中国的贡献始终占据突出地位;即便到2040年后,美国、欧洲及其他地区的L4+车辆数量均呈现明显增长态势,中国在全球市场中的占比依然能保持领先 [3] 自动驾驶之心知识星球社区概况 - 社区是一个集视频、图文、学习路线、问答、求职交流为一体的综合类自动驾驶社区,已运营三年,目前成员超过4000人,并计划在未来2年内做到近万人的规模 [5][6] - 社区成员来自国内外知名高校实验室和自动驾驶头部公司,高校包括上海交大、北京大学、CMU、清华大学、西湖大学等,公司包括蔚小理、地平线、华为、大疆、广汽、上汽、博世、小米汽车、英伟达、Momenta、百度等 [19] - 社区与多家自动驾驶公司建立了岗位内推机制,可帮助成员将简历第一时间送至心仪公司 [13] 社区提供的学习资源与内容体系 - 社区梳理了近40+自动驾驶技术方向的学习路线,内容涵盖基础入门、算法进阶、实战落地等多个维度 [11][20] - 提供了七大福利视频教程,涵盖感知融合、多传感器标定、SLAM与高精地图、决策规划与轨迹预测、数据工程、目标跟踪、自动驾驶仿真、端到端自动驾驶及大模型等主题 [13] - 汇总了丰富的学习资料,包括近40+开源项目、近60+自动驾驶相关数据集、行业主流仿真平台、国内外高校与公司汇总、以及自动驾驶和CV相关书籍 [20][31][33][35][37][39] 社区技术交流与前沿话题 - 社区日常讨论的问题覆盖端到端自动驾驶入门、多模态大模型、VLA学习路线、3DGS与闭环仿真、世界模型、规划控制转型、多传感器融合就业、公司前景与跳槽内推等前沿与实用话题 [9][23] - 社区不定期邀请一线学术界与工业界大佬进行直播分享,目前已举办超过一百场专业技术直播,内容涉及VLA模型、V2X、3D检测、扩散模型规划、3DGS等前沿工作 [92] - 针对当前研究热点,社区设有专门板块进行详细梳理,包括端到端自动驾驶、3DGS与NeRF、自动驾驶世界模型、视觉语言模型、自动驾驶VLA、扩散模型、BEV感知、在线高精地图等 [41][43][45][47][49][53][55][61]