自动驾驶之心
搜索文档
端到端VLA剩下的论文窗口期没多久了......
自动驾驶之心· 2026-01-12 17:20
行业趋势与研究方向 - 自动驾驶前沿研究方向窗口期有限 正被大厂和头部高校激烈竞争[2] - 对于计算机和自动化背景的研究者 深度学习方向如VLA、端到端、世界模型具有从入门到工作及读博的广阔发展空间[2] - 对于机械和车辆背景的研究者 建议从传统PnC、3DGS等算力要求低、入手简单的方向开始学习[2] - 行业前沿研究方向包括端到端、VLA、世界模型、强化学习、3D目标检测、多传感器融合、3DGS、BEV感知、Occupancy Network、多任务学习、语义分割、轨迹预测、运动规划、扩散模型、Flow matching、点云感知、毫米波雷达、单目感知、车道线/在线高精地图等[3] 研究支持服务 - 提供涵盖论文选题、全流程指导、实验指导及申博指导等研究支持服务[6][9] - 服务已成功帮助多篇论文被CVPR、AAAI、ECCV、CoRL、ICLR、IROS、ICRA、ACL等顶会顶刊收录[7] - 服务覆盖的论文级别包括自动驾驶顶会/顶刊 CCF-A/B/C SCI一区至四区 中科院1至4区 EI/中文核心 以及毕设论文、申博和比赛等[10]
最近会开放一批端到端&VLA的岗位需求
自动驾驶之心· 2026-01-12 11:15
行业技术趋势与共识 - 行业共识认为2026年将是自动驾驶领域“结硬寨,打呆仗”的一年,算法层面短期内看不到重大变革,技术重点转向对端到端、视觉语言动作模型等前沿技术的量产优化[1] - 技术发展方向明确,当前阶段需要攻克工程化应用的“硬骨头”,因此行业人力招聘重点倾向于有经验的算法工程师,并开放了大量职位[1] - 端到端和视觉语言动作模型技术方向的关键词包括:BEV感知、大模型、扩散模型、强化学习[1] 核心课程内容与结构 - 课程第一章概述端到端自动驾驶,涵盖其发展历史、从模块化到端到端的演进原因,并分析一段式、二段式及视觉语言动作模型范式的优缺点与适用场景[6] - 课程第二章重点讲解端到端技术涉及的背景知识,包括视觉语言动作模型所需的大语言模型、扩散模型及强化学习,以及一段式端到端涉及的BEV感知,这些内容被认为是未来两年求职面试的高频技术关键词[6][7] - 课程第三章聚焦二段式端到端,解析其定义与出现原因,并讲解领域内的经典算法与前沿进展[7] - 课程第四章为核心精华部分,深入讲解一段式端到端的多个子领域,包括基于感知、世界模型、扩散模型以及当前最热的基于视觉语言动作模型的方法[8] - 课程第五章设置大作业,以基于人类反馈的强化学习微调进行实战,该技术可迁移至视觉语言动作模型相关算法中,具有良好延展性[9] 关键技术模块详解 - 课程详细讲解Transformer基础及其在视觉领域的应用,并涵盖为多模态大模型奠定基础的CLIP和LLaVA模型[11] - 深入介绍BEV感知基础知识,解释其如何应用于自动驾驶核心感知任务[11] - 讲解扩散模型理论及其在输出多模轨迹预测中的应用,这是当前学术界与工业界尝试落地的热点[11] - 介绍视觉大语言模型相关的强化学习技术,包括基于人类反馈的强化学习及其在视觉大语言模型训练中的作用[11] - 基于世界模型的方法被重点介绍,因其应用广泛,不仅可用于场景生成、端到端驾驶,还可用于闭环仿真,是近两年的热门技术方向[12] - 基于扩散模型的端到端方法自2023年下半年兴起,其与基于模型的方法或视觉语言动作模型结合,可更好地适应环境不确定性,课程配套相关实战讲解[12] - 基于视觉语言动作模型的端到端方法被视为当前该领域的“皇冠”,上限高、难度大,行业招聘需求旺盛,课程选取了业界代表性工作并设置实战环节[12] 课程目标与受众要求 - 课程旨在推动端到端技术在工业界的落地,帮助学员真正理解端到端自动驾驶[10] - 期望学员学完后能达到具备约1年经验的端到端自动驾驶算法工程师水平,掌握涵盖多种方法的技术框架,并对关键技术有深刻理解[15] - 学员需自备GPU,推荐算力在RTX 4090及以上,并需具备一定的自动驾驶领域基础、相关技术概念知识以及编程与数学基础[13]
华为ADS智驾方案分析
自动驾驶之心· 2026-01-10 11:47
文章核心观点 华为智能驾驶解决方案ADS已从1.0迭代至4.0,其核心是坚持多传感器融合的技术路线,并通过软件架构与算法的持续升级,实现了从依赖高精地图的规则驱动到不依赖高精地图的端到端数据驱动,最终迈向基于“云端训练+车端推理”协同范式、具备高速L3级能力的系统级重构[2][4] 华为ADS硬件迭代:多传感器融合方案 - 公司坚持采用激光雷达、毫米波雷达、摄像头、超声波雷达等多传感器互补融合的方案,以实现全天候全天时的高效感知能力[2] - 各传感器特点如下: - **激光雷达**:作为成像级传感器,可渲染3D环境,成像干净、噪点少、信息丰富,但受天气和光照条件影响明显,感知范围较近,高速行驶场景有欠缺[3] - **毫米波雷达**:用于盲点监测、变道辅助,在夜晚及极端天气下仍可工作,抗电磁干扰能力强、成本较低,但对静止障碍物探测有待提高,噪点多、对金属敏感[3] - **超声波雷达**:用于5米以内的短距感知和泊车辅助,成本低、探测能力强,但作用距离近,点云缺乏高度信息[3] - **摄像头**:用于环境探测和障碍物信息采集,获取信息丰富、速度快、成本相对较低,可以描绘道路环境深度信息及3D整体环境,但视觉受天气及光线影响[3] - 在技术方案中,摄像头是基础图像信息传感器,激光雷达可丰富环境信息并生成3D图像,毫米波雷达(特别是4D毫米波雷达)在极端天气下辅助感知,超声波雷达则是泊车辅助的必备低成本元件[3] 华为ADS各代技术演进与核心能力 - **ADS 1.0 (2021年4月发布)**: - 配置方案为多传感器融合+有图智驾,软件架构为BEV[4] - 核心智驾功能为NCA智驾领航辅助,初期城区功能限于上海、广州、深圳[4] - 智驾级别为L2,搭载于极狐阿尔法S、阿维塔11等车型[4] - 感知层采用BEV+Transformer算法,依赖“白名单机制”人工标注,存在无法识别白名单外异形物体的“长尾效应”[6] - 采用有图(高精地图)智驾方案,该方案存在新城渗透速度慢(需2-3年)和更新不及时(更新频率1-3个月)两大缺点[7][9] - **ADS 2.0 (2023年4月发布)**: - 配置方案升级为多传感器融合+无图智驾,软件架构为BEV+GOD 2.0+RCR 2.0[4] - 核心智驾功能NCA覆盖高速路与城区车道,智驾级别为L2[4] - 搭载于问界M5/M7/M9、阿维塔11鸿蒙版、阿维塔12、智界S7等车型[4] - 核心算法为GOD2.0与RCR2.0,分别解决“看得懂物”和“看得懂路”的问题[8] - **GOD2.0网络**:可识别通用障碍物白名单外的异形物体,并能精细区分障碍物种类(如救护车、警车),识别率高达99.9%[8][11]。该网络构建在自学习数据引擎上,利用车端收集数据、云端自动标注和4D场景重建进行训练,每天产生大量有价值数据,公司利用上千个NPU和上亿公里驾驶数据对其进行训练,目标是训练成一个能像人类一样灵活应对各种场景的基础模型[12][14] - **RCR2.0网络**:实现导航地图与现实世界的匹配,感知面积可达2.5个足球场,能实时生成道路拓扑,解决了无高精地图情况下的车道内行驶和路口处理两大关键难题[16] - **ADS 3.0 (2024年4月发布)**: - 配置方案为多传感器融合+端到端大模型,软件架构为GOD大网+PDP[4] - 核心智驾功能NCA覆盖全国高速与城区,可实现“车位到车位”的全程智驾,智驾级别为L2[4] - 搭载车型进一步扩展至问界M5/M7/M9、阿维塔11/12、智界S7、享界S9、岚图梦想家等[4] - 采用“端到端”的仿生神经网络架构,通过海量真实驾驶数据训练,使驾驶决策更接近人类直觉[18] - 多传感器深度融合,其中激光雷达探测距离达到200米,负责高精度三维建模[20] - **GOD大网**:识别精度较前代提升30%,能识别包括异形障碍物在内的多种目标[21] - **PDP路径规划算法**:引入深度强化学习,可根据实时路况动态优化路径,减少对固定规则的依赖[23] - 创新功能包括: - **车位到车位智驾**:支持从停车场入口到目标车位的全程自主导航与泊车,无需高精地图,在复杂场景下泊车成功率可达95%以上[24] - **全场景智能防撞系统CAS 3.0**:整合23项主动安全功能,已累计避免潜在碰撞事故超200万次[25][28] - **城区与高速双域NCA**:可应对红绿灯识别、无保护左转等复杂城市路况,对交通信号灯的识别准确率达99%[26] - **ADS 4.0 (2025年4月发布)**: - 配置方案为多传感器融合+世界模型,软件架构为WEWA架构[4] - 核心智驾功能覆盖全国,可实现高速L3级别驾驶[4] - 搭载品牌扩展至奥迪、岚图汽车、深蓝、广汽传祺、阿维塔、北汽等[4] - 搭载的WEWA架构通过“云端训练+车端推理”的协同范式,彻底重构了智驾的训练与运行逻辑[4] - 该架构通过“AI教AI”的方式补齐长尾难例(如鬼探头、极端天气突发状况),并将“安全价值观”内化为决策底层,实现了真正“原生面向智驾”的系统级重构[4] 技术迭代总结 - ADS 1.0至3.0完成了从“规则驱动”到“端到端数据驱动”的产业级落地,解决了高阶智驾“能开、开好”的基础问题[4] - ADS 4.0则通过WEWA架构,利用“云端训练+车端推理”的协同范式,实现了智驾系统训练与运行逻辑的彻底重构[4]
刷完了端到端和VLA新工作,这9个开源项目最值得复现......
自动驾驶之心· 2026-01-10 11:47
文章核心观点 - 文章精选了2025年高价值的自动驾驶开源项目,其筛选标准基于代码可获取性、项目活跃度及GitHub Star数量,旨在为快速上手端到端自动驾驶提供从数据清洗、训练配方到闭环评测的全套工程参考方案[4][5] 开源项目概览 - **DiffusionDrive**: 由华中科技大学与地平线联合发布,通过引入多模态驾驶锚点与截断扩散日程,将扩散模型的去噪步骤简化为2-4步,实现了45 FPS的实时性能,并在NAVSIM基准上取得88.1的PDMS分数[6][8] - **OpenEMMA**: 由德克萨斯农工大学、密歇根大学等多所高校联合发布,通过引入Chain-of-Thought推理机制,在多种现有多模态大语言模型上提升复杂场景下的泛化能力,无需从头训练巨量参数[11] - **Diffusion-Planner**: 由清华大学、中国科学院自动化研究所等机构联合发布,基于Transformer的扩散模型生成多模态轨迹,解决了模仿学习的“平均解”困境,在nuPlan大规模闭环基准上取得领先性能,并在200小时的实车配送数据集上验证了其适应性[14] - **UniScene**: 由上海交通大学、东方理工大学宁波数字孪生研究院等机构联合发布,提出以占据为统一中间表达的多模态生成框架,通过“布局→占据→多模态数据”的渐进式生成机制,同步产出视频、点云与占据标注,降低数据制备成本[15][16] - **ORION**: 由华中科技大学与小米汽车联合发布,提出统一对齐视觉、推理与动作空间的框架,通过QT-Former聚合历史信息并利用LLM输出“规划token”,在Bench2Drive闭环评测中显著提升了驾驶得分与成功率[18] - **FSDrive**: 由西安交通大学、高德地图与阿里巴巴达摩院联合发布,提出“用画面思考”的视觉化推理范式,训练统一的VLA模型预测包含结构化先验的未来场景画面,并在nuScenes、NAVSIM等基准上提升了轨迹精度与安全性[21] - **AutoVLA**: 由加利福尼亚大学洛杉矶分校发布,提出将连续轨迹离散化为物理可行的动作token的自回归生成式框架,模型通过监督微调和强化学习微调,在nuPlan、Waymo等多个基准上验证了其竞争力[24] - **OpenDriveVLA**: 由慕尼黑工业大学与慕尼黑大学发布,是一个开源的端到端驾驶VLA模型,采用分层视觉-语言对齐方法,在nuScenes数据集上验证了其在开放环路规划与驾驶问答任务上的有效性[26] - **SimLingo**: 提出了一个多任务联合训练框架,旨在实现驾驶行为、视觉语言理解与语言-动作一致性三者的统一对齐,作为CARLA Challenge 2024的获胜方案之一,在Bench2Drive等闭环评测中达到领先水平[29] 项目亮点与趋势 - **技术焦点**: 多个项目聚焦于解决端到端自动驾驶中感知与规划间的模态断层问题,通过引入结构化先验、视觉化推理或统一语义空间等方法进行融合[8][18][21][26] - **性能优化**: 项目致力于在保持或提升规划质量的同时优化实时性能,例如DiffusionDrive通过简化扩散步骤实现45 FPS的实时推理[8] - **数据与成本**: 针对高质量数据获取成本高昂的瓶颈,出现了如UniScene这类专注于多模态数据合成的框架,以降低下游任务的数据制备投入[16] - **框架轻量化**: 部分项目如OpenEMMA,通过改进推理机制而非增加参数量,旨在降低算力与数据门槛,加速大模型在自动驾驶领域的落地[11] - **工程价值**: 文章强调这些开源项目提供了可复用的工程模板、完整训练配方和评测方案,是开发者构建技术直觉和快速上手的“工程积木”[4][31]
搞过自驾的小伙伴,在其他领域还是很抢手
自动驾驶之心· 2026-01-10 11:47
自动驾驶行业现状与人才流动 - 2025年自动驾驶行业整体处于下沉和高度竞争阶段,行业内卷严重,竞争焦点集中在技术、成本和效率上 [2] - 行业平台业务正在扩展,从线上走向线下,B端客户增加,C端内容向专业化、精细化发展 [2] - 2025年上半年以来,大量自动驾驶算法人才流向具身智能、L4、无人机等新兴领域,这些领域正在大规模招聘 [2] - 自动驾驶领域因其相对成熟,其算法人才备受其他AI行业青睐,头部企业如大疆、宇树、智元、哈啰等提供了具有竞争力的薪资 [2] - 自动驾驶从业者具备处理大规模计算集群、解决各种极端案例以及强大的上下游协同能力,这些技能在其他相关行业较为稀缺 [3] 自动驾驶前沿技术方向 - 自动驾驶的前沿技术收敛于几个主要方向:一段式端到端、视觉语言动作模型、世界模型以及强化学习 [4] - 行业中游厂商当前的技术攻坚重点包括占用网络、无图技术以及多传感器融合感知等领域 [4] - 预计明年相关公司将释放大量招聘名额 [4] 自动驾驶之心知识星球社区概况 - 自动驾驶之心知识星球是一个付费社区,截至2025年成员已突破4000人 [4] - 社区定位为综合类自动驾驶技术社区,集视频、图文、学习路线、问答、求职交流于一体,已运营维护三年 [6] - 社区目标是在未来两年内将规模扩大至近万人 [6] - 社区联合了学术界与工业界的专家共同打造,旨在降低行业入门壁垒,提供体系化学习资源 [6] - 社区内部梳理了超过40个自动驾驶技术方向的学习路线,并邀请了数十位活跃在一线的产业界和学术界嘉宾进行答疑 [9][11] - 社区与近300家机构和自动驾驶公司成员建立了联系,便于交流产业、产品和求职信息 [102] - 社区提供了与多家自动驾驶公司的岗位内推机制 [13] 社区核心内容与资源体系 - **学习路线与知识体系**:社区系统梳理了自动驾驶全栈学习路线,包括近40个技术方向,如感知、规划控制、仿真、端到端、VLA、世界模型等 [12][20] - **数据集与工具汇总**:汇总了近百个自动驾驶数据集、各类标注工具、仿真框架及传感器标定开源工具 [12] - **开源项目与方案**:汇总了超过40个开源项目,涵盖3D目标检测、BEV感知、世界模型、自动驾驶大模型、端到端等多个领域 [37] - **技术教程与直播**:提供原创系列视频教程,涵盖感知融合、多传感器标定、SLAM、规划控制、数据工程、端到端及大模型等主题 [13] 并不定期举办行业大佬直播分享,目前已超过一百场 [92] - **行业与高校信息**:汇总了国内外自动驾驶公司、高校著名研究团队及实验室信息,供求职、升学参考 [31][33] - **专业问答与交流**:设有“自动驾驶100问”系列,涵盖TensorRT部署、毫米波雷达融合、车道线检测、规划控制、BEV感知、相机标定等主题 [12] 社区成员可自由提问,获得工作与研究方向选择的解答 [94]
今天十点!一场关于自驾L4的圆桌探讨(斯年智驾/新石器/卡尔动力等)
自动驾驶之心· 2026-01-10 09:00
行业技术发展现状与趋势 - 高阶辅助驾驶已进入“准L4”的安心阶段,L2与L4的技术路线走向收敛,同一套模型可在L2和L4上复用 [3] - 2025年整个自动驾驶行业融资超过300亿人民币,且资金集中在L4领域 [3] - L4级自动驾驶技术正引发行业新的关注,可能步入下一个关键节点 [3] 行业商业化落地进展 - 新石器无人车研发的L4级城市物流配送无人车已在物流配送领域获得广泛应用,在全国300多个城市及海外10多个国家开展商业化运营 [5] - 新石器无人车累计交付15000辆无人车,总行驶里程超过6000万公里 [5] - 行业专家曾主导Ioniq5 Robotaxi上线Lyft和Uber在拉斯维加斯的准商业化运营 [6] 行业核心参与者背景 - 斯年智驾创始人何贝为清华大学博士,原百度无人车科学家,拥有无人驾驶全栈工程师背景,发表相关论文30余篇、专利100余件 [4] - 新石器无人车CTO苗乾坤毕业于中国科学技术大学,拥有工学博士学位,在自动驾驶、人工智能等领域有15年以上的研发经验 [5] - 卡尔动力AI研发副总裁王珂曾任美国自动驾驶独角兽Zoox感知Tracking模块负责人 [6] - 全球前三车企美国研发中心规控Tech Lead马千里为约翰霍普金斯大学机器人方向博士,曾任Motional规划控制组Principal Engineer & Manager [6] - 主持人崔迪潇拥有10年学术界乘用车无人驾驶研究经历及7年工业界商用车无人驾驶研发和量产落地运营经历 [7] 行业活动与深度探讨方向 - 即将举行的L4智驾圆桌将汇聚L4头部企业,深入探讨自动驾驶L4的技术理想与商业现实的博弈 [3] - 探讨议题将包括L4技术路线的变迁、未来市场格局及发展方向 [3] - 知识星球“自动驾驶之心”将提供深度内容,涵盖技术细节、QA及未公开彩蛋,讨论主题包括FSD v14是否包含VLA、VLA与WA谁定义下一代方案、学术与量产的分歧以及数据闭环工程等 [15]
实车验证AlignDrive:端到端的横纵向对齐规划(西交&地平线)
自动驾驶之心· 2026-01-09 14:32
文章核心观点 - 提出了一种名为AlignDrive的新型端到端自动驾驶规划框架,其核心创新在于采用级联结构,使纵向规划依赖于横向路径,从而解决了传统并行规划中横向与纵向难以协调、静态信息冗余编码的问题,并显著提升了对动态场景的交互建模能力 [3] - 该框架解锁了一种面向规划的数据增强手段,通过插入虚拟动态智能体并仅调整沿固定横向路径的纵向位移,能够高效生成大量安全关键场景的训练数据,从而提升模型的避碰能力和闭环规划稳健性 [4][6] - 实验表明,AlignDrive在Bench2Drive闭环评估中全面超越先前所有模型,在驾驶得分、成功率等关键指标上大幅领先;在nuScenes开环评估中碰撞率显著降低;其轻量化版本在保持性能领先的同时实现了更高的推理效率 [11][14][17] 方法概述 - AlignDrive采用级联框架:首先预测横向行驶路径,然后以此路径为先验,结合动态环境信息预测沿该路径的等时间间隔一维纵向位移,最终生成自车轨迹 [3][9] - 该设计使不同模块专注于关键信息:横向路径预测模块(类比“转方向盘”)和纵向位移预测模块(类比“踩油门和刹车”) [3] - 训练中引入了面向规划的数据增强模块,通过在检测结果中插入虚拟动态智能体并相应修改自车目标轨迹,来生成更多关键场景的训练数据 [8] 实验与性能评估 - **Bench2Drive闭环评估**:AlignDrive的驾驶能力综合得分(Mean Ability)达到70.06%,显著超越之前的SOTA模型HiP-AD(65.98%)及其他基准模型,在并道(Merging, 75.00%)、超车(Overtaking, 75.56%)、紧急制动(Emergency Brake, 75.00%)等多个子任务上表现优异 [11][13] - **nuScenes开环评估**:AlignDrive在碰撞率(Collision Rate)指标上表现最佳,平均碰撞率为0.06%,低于VAD-Base(0.21%)、DriveTransformer-Large(0.07%)等模型;其轨迹误差(L2)平均为0.78米,略高于其他方案,但文章指出L2指标与真实实车驾驶表现的一致性较差 [14][15][16] - **推理效率**:AlignDrive的轻量化小型版本(AlignDrive-Small)在保持闭环得分领先的同时,实现了更高的推理效率(具体数据因表格不完整未完全呈现) [17][18] - **消融实验**:实验验证了级联规划(LP)、沿路径位移回归(DP)和规划导向数据增强(DA)三个核心组件的有效性,完整模型(E)取得了最高的驾驶得分(89.07)、成功率(73.18%)和最低的碰撞率(11.4%) [19][20] - **数据增强参数**:研究发现,以10%的概率在训练中进行规划导向的数据增强效果最佳 [21] 技术优势与影响 - 通过将纵向规划建模为沿固定横向路径的一维位移回归,自然强化了目标轨迹与动态物体之间的耦合关系,使模型持续聚焦于关键的动态交互信息 [24] - 基于级联框架的数据增强策略,能在不改变横向路径的前提下,高效生成大量高风险场景,极大提升了模型在复杂交通环境中的决策能力与安全性 [24] - 可视化案例表明,传统基线方法因横纵向规划不一致可能导致碰撞,而AlignDrive的级联规划在此类场景下能成功避免碰撞 [22]
自动驾驶L4的冰与火:L2到L4是否成为可落地的工程现实......
自动驾驶之心· 2026-01-09 14:32
行业技术发展现状与趋势 - 高阶辅助驾驶已进入“准L4”的安心阶段,L2与L4的技术路线走向收敛,同一套模型可在L2和L4上复用 [3] - 2025年整个自动驾驶行业融资超过300亿人民币,且资金集中在L4领域 [3] - L4级自动驾驶技术正引发行业新的关注,可能步入下一个关键节点 [3] 行业商业化落地进展 - L4级城市物流配送无人车已在物流配送领域获得广泛应用,在全国300多个城市及海外10多个国家开展商业化运营 [5] - 相关公司已累计交付15000辆无人车,总行驶里程超过6000万公里 [5] - 有Robotaxi车型已在拉斯维加斯通过Lyft和Uber平台实现准商业化运营 [6] 行业重要活动与讨论焦点 - 行业将举办L4智驾圆桌会议,深入探讨自动驾驶L4的技术理想与商业现实,议题包括技术路线变迁、未来市场格局及发展方向 [3] - 行业持续关注技术路线较量,如学术与量产的分歧,以及下一代技术方案的探讨(如VLA vs WA) [15] - 行业专家正深入讨论自动驾驶数据闭环工程等硬核技术话题 [15] 行业核心参与者背景 - 行业头部企业创始人及技术负责人多拥有顶尖学术背景(如清华大学、中国科学技术大学、约翰霍普金斯大学博士)及丰富的研发经验 [4][5][6] - 核心技术人员普遍在人工智能、自动驾驶领域拥有超过10年的研发经验,并在国际顶级会议发表多篇论文、申请多项专利 [4][5][6] - 行业专家广泛参与国家级研究项目,并在多个国家级学会、高校及智库担任委员或顾问,获得多项国家级及行业级荣誉奖项 [8][9]
当我们把3DGS在工业界的应用展开后......
自动驾驶之心· 2026-01-09 14:32
理想汽车在3DGS领域的技术布局与路线 - 公司对世界模型的定义为“重建+生成”,核心是利用3DGS技术重建自动驾驶场景,再结合生成方法实现闭环仿真或场景生成 [1] - 公司在重建方面的具体工作包括:在ECCV2024中稿的StreetGaussian、发布3DRealCar大规模车辆资产重建数据集、开发使训练速度提升近八倍的3DGS训练加速算法Balanced3DGS、在ICCV2025中稿的Hierarchy UGP,以及开发具有时空一致性的多风格场景生成算法StyledStreets [2] 3DGS技术的行业价值与发展趋势 - 3DGS的高保真场景重建与可编辑能力,解决了自动驾驶测试中依赖实车、难以复现极端案例以及传统仿真存在较大领域差距的问题 [3] - 行业技术发展遵循一条清晰路径:从静态重建演进到动态重建,再到混合重建,最终发展至前馈GS [3] - 该技术不仅是自动驾驶领域的关键需求,也正在3D领域、具身智能及游戏行业推动落地,目前市场上掌握3DGS全栈技术的工程师非常稀缺 [3] 3DGS技术课程的核心内容架构 - 课程第一章涵盖计算机图形学基础,包括三维空间的隐式与显式表达、渲染管线、光线追踪、辐射场渲染,并介绍COLMAP、Gsplat等主流开发工具,通过基于3D Real Car数据集的实践作业帮助入门 [10] - 第二章深入讲解3DGS原理、核心伪代码,并覆盖动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法,实战部分采用英伟达开源的3DGRUT框架 [11] - 第三章聚焦自动驾驶仿真重建,重点解析Street Gaussian、OmniRe和Hierarchy UGP三篇工作,实战选用DriveStudio框架 [12] - 第四章探讨3DGS的重要研究方向,包括COLMAP扩展、深度估计及Relighting,并分析其工业应用与学术前景 [13] - 第五章讲解当前热门的Feed-Forward 3DGS,梳理其发展历程与原理,并解析AnySplat和WorldSplat两篇最新算法工作 [14] 课程面向人群与学习收获 - 课程面向具备一定计算机图形学基础、了解视觉重建/NeRF/3DGS等技术、拥有概率论与线性代数基础、熟悉Python和PyTorch的学员,学习需自备推荐算力在4090及以上的GPU [19] - 学员通过学习将掌握3DGS完善的理论知识及相关技术栈、掌握算法开发框架并能够训练开源模型,同时获得与学术界及工业界同行持续交流的机会,对实习、校招和社招均有助益 [19]
Momenta智驾方案解析
自动驾驶之心· 2026-01-09 08:47
Momenta无地图自动驾驶解决方案概述 - 公司提出了一种不依赖高精地图的自动驾驶解决方案,通过多传感器融合与实时环境感知实现导航[4] - 该方案通过数据采集、感知处理、定位计算、路径规划与控制等步骤实现完整自动驾驶功能[4] - 系统使用多摄像头、激光雷达、雷达、IMU、轮速传感器和GNSS接收器进行360度环境感知,其中多摄像头提供视野,激光雷达和雷达提供用于构建3D环境模型的点云数据[5] - 感知模块运用计算机视觉和深度学习算法进行物体检测、分类和跟踪,并融合多传感器数据生成实时更新的局部地图,包含可行驶区域、车道线和障碍物位置[5] - 定位模块融合IMU、轮速和GNSS数据,通过SLAM等算法计算车辆在"Boot Frame"中的精确姿态,在无地图模式下主要依赖传感器融合和实时环境特征匹配[5] - 规划模块根据导航系统提供的全局路线和局部地图生成详细行驶轨迹,并考虑交通规则、障碍物避让和乘客舒适度,其所需的SD Map仅包含基本道路拓扑信息,降低了对高精度细节数据的依赖[5] DDLD(数据驱动地标检测)系统 - DDLD是一种基于数据驱动方法的地标检测系统,用于自动驾驶中道路元素的自动识别与定位[8] - 系统采用以自车为中心的感知框架,将自车作为坐标系原点来检测周围环境[9] - 系统分层检测三类主要地标:车道中心线、车道边界和道路边界,同时还能检测停止线、人行横道等其他道路标记[10] - 检测输出为一系列的点集或贝塞尔曲线参数,直接描述地标的几何形状[29] - 整个系统构成一个庞大的数据飞轮和自动化流水线,旨在低成本、高效率地获取海量高精度标注数据[14] DDLD系统工作流程 - 第一阶段为DDLD地图生产(初始地图构建):派遣专业测绘车进行多次数据采集,采集数据包括多摄像头视频、高精度轨迹和语义点云[18] - 通过多行程重建将同一路段多次采集的数据进行融合,构建更完整精确的环境模型[18] - 在重建的融合数据上运行训练好的DDLD检测模型,离线检测所有地标,以追求更高精度[18] - 经过人工质检后,生成带有时空信息的高精度"DDLD地图"作为系统产出的真值[15] - 第二阶段为自动标注流水线(数据飞轮循环):量产车在路测和日常行驶中不断收集新的行程数据[17] - 系统判断新行驶路径是否已被现有DDLD地图覆盖,这是一个关键决策点[25] - 若路径已被覆盖,系统执行高精度重定位,以厘米级精度确定车辆在地图中的位置,并将地图中存储的地标矢量反向投影到新采集的数据中,从而自动生成完美标注,无需人工干预[25] - 若路径未被覆盖,数据则被送回第一阶段的DDLD地图生产流水线,以扩展地图覆盖范围[19] DDLD模型架构 - 模型架构包括特征提取(编码阶段)、查询与解码(解码阶段)以及预测头(输出阶段)[22][23][28] - 特征提取阶段包含图像编码器和可选的地图编码器,图像编码器使用主干网络或视觉Transformer从原始图像中提取视觉特征,地图编码器允许模型融合上下文先验知识[26] - 图像特征和可选的地图特征会被融合,形成统一的"Map Feature"作为解码器的上下文信息[22] - 解码阶段使用一组可学习的查询,而非传统的锚框或非极大值抑制[23] - 模型预设三组不同的查询:车道图查询、车道边界查询和道路边界查询,用于预测不同类别的结构[30] - 通过Transformer解码器层的交叉注意力机制,每个查询从特征图中收集相关信息,并经过迭代优化[30] - 优化后的查询被送入对应的预测头(车道图头、车道边界头、道路边界头),解码为具体的结构化输出[30] 深度学习规划(DLP)方案 - 针对传统规划方法(如基于优化的方法易陷入局部最小值,基于搜索的方法计算复杂度高)的局限性,公司提出了深度学习规划作为更高效的解决方案[32][33] - 规划被描述为一个高维动作空间中的时空联合搜索问题,传统规划器因在线计算资源有限而不得不牺牲最优性[35] - DLP系统的输入包括五类关键信息:全局路径信息、自车历史轨迹信息与用户设置、历史交通灯信息、静态地标(车道中心线/边界/道路边界)以及动态目标的历史轨迹信息[36][38] - 系统的输出包括两部分:为自车规划的轨迹点、预测的其他交通参与者轨迹点,以及高级驾驶行为决策[36][37] - 驾驶行为决策被建模为分类问题,使用softmax分类输出车道选择得分,使用sigmoid分类输出绕行得分等二元决策置信度[38] - DLP模型架构包含多模态感知信息整合输入层、Transformer编码器进行多模态特征编码、以及Transformer解码器进行决策与轨迹生成[41] - 模型通过生成式预训练、模仿学习和强化学习相结合的方式进行训练[47] 数据闭环与管道 - 公司构建了强大的自动化数据生产流水线来确保深度学习模型的数据质量[44] - 针对数据不平衡问题,采用细粒度挖掘数据管道,从海量数据中主动挖掘稀有但重要的场景(如紧急切入、行人突然闯入)[45] - 针对仿真中的数据分布漂移问题,采用仿真事件生成数据管道,当模型在仿真中犯错时自动生成带有正确标签的新数据以加入训练集[45] - 针对冲突数据(标注错误或矛盾),采用坏数据过滤数据管道,使用规则或噪声检测模型识别并过滤低质量数据[45] - 针对数据匮乏问题,采用仿真事件生成数据管道,利用仿真器大规模生成现实世界中罕见的长尾场景数据[45] - 基础数据质量过滤管道执行最基本的清洗,过滤掉格式错误、数据缺失或明显超出物理极限的无效数据[48] - 细粒度挖掘管道根据场景复杂性、罕见性或模型不确定性,从日志数据中筛选高价值片段供模型重点学习[49] - 坏数据过滤管道识别并移除内部不一致的数据样本以保证数据集纯净度[54] - 仿真真值生成管道在仿真中使用更强大的规划器或专家规则生成最优轨迹作为场景的真值标签[54] - 仿真事件生成管道通过调整参数或使用对抗学习技术,主动生成能暴露当前规划模型弱点的边缘案例场景[54] Cut-In场景效果验证 - 选择"Cut-In"(其他车辆切入)场景进行重点测试,因其高动态性和决策冲突能有效验证深度学习规划方案解决传统框架痛点的能力[53] - 评估指标分为安全指标与舒适指标两大类[53] - 安全指标包括"每次干预的计数"(平均每次人类接管前模型成功处理Cut-In的次数)和"成功率"(模型未发生碰撞且无需接管的比例)[55] - 舒适指标包括"每次问题的计数"(平均每次出现舒适性问题的间隔)和"成功率"(未引发不舒适急刹等行为的比例)[59] - 构建了三个针对性数据集:包含常规车辆切入场景的CutIn数据集、包含各种卡车/挂车切入场景的卡车/挂车CutIn数据集、以及包含与Cut-In相似但无需强烈制动事件的误刹数据集[59] - 实验结果显示,在常规切入数据集上,DLP方法的"每次干预的计数"为33.3,成功率为97%,相比传统方法(9.9 / 90%)有显著提升[58] - 在卡车/挂车切入数据集上,DLP方法的"每次干预的计数"为25.0,成功率为96%,相比传统方法(7.0 / 86%)提升更为明显[61] - 在误刹数据集上,DLP方法的"每次问题的计数"为4.2,成功率为76%,相比传统方法(2.0 / 50%)在舒适性上实现了巨大进步[61] - DLP在安全性上可靠性大幅提升,"每次干预的计数"提升了约2.3到3.4倍,在更具挑战性的卡车/挂车切入场景中成功率提升10个百分点[65] - DLP在舒适性上实现了质的飞跃,成功率从50%提升至76%,"每次问题的计数"翻倍,减少了约一半的不必要急刹车,驾驶行为更拟人化[65] DDPF(数据驱动位姿融合)定位技术 - DDPF是自动驾驶定位模块的核心组成部分,属于底层状态估计,负责输出车辆短时间内的精确运动变化和相对于地面的姿态[66] - 输入来自车辆底盘和惯性传感器的原始时序信号,包括IMU(提供三轴加速度和角速度)、轮速脉冲、转向角和电机速度[69] - 输出包括相对位姿变化(旋转矩阵变化ΔR和平移向量变化Δt)以及绝对地面姿态角(滚转角和俯仰角)[69] - 作为数据驱动方法,DDPF的优势在于能从海量数据中学习真实的传感器误差模型、处理非线性与标定误差、具有更强鲁棒性,并进行端到端优化[69] - DDPF旨在解决传感器固有缺陷(如IMU噪声与漂移、轮速传感器在极低速下失效)、复杂运动学建模困难(如车辆侧滑、停车大侧滑角)以及工程部署难题(为不同传感器组合手动调参)[70][74] - 通过学习真实运动响应,DDPF能处理包括大侧滑角在内的复杂车辆动态,并实现一套模型适配多套传感器,减少部署调参工作量[75] DDPF网络架构与评估 - 网络采用多传感器并行编码设计,为陀螺仪、加速度计、轮速、车轮角度等信号设计独立的编码器进行特征提取[76][79] - 特征融合阶段需要解决不同采样率信号的时间对齐问题,并学习不同模态特征间的互补关系[77] - 融合后的特征通过解码网络处理,最终以回归形式输出6自由度位姿(位置和姿态)[77] - 架构设计具有模态专用性、端到端学习、能处理非线性与依赖关系以及适应复杂运动学等优势[79] - 使用相对位置误差(RPE)评估定位性能,通过比较真值轨迹和模型轨迹在等长段上的相对位移向量来揭示系统在动态运动中的漂移或尺度偏差[82][86] 自动驾驶技术演进路径 - Algorithm 2.0阶段为模块化数据驱动感知,感知任务被拆分为独立的数据驱动模块,规划则基于规则[90][92] - Algorithm 3.0阶段为感知序列任务整合,将与时序相关的感知任务(融合、跟踪、预测)整合成统一的端到端数据驱动模型,规划开始向数据驱动演进[90][92] - Algorithm 4.0阶段为全感知任务整合,将所有感知任务整合进一个统一的4D感知模型,规划实现全数据驱动并能处理复杂认知任务[90][92] - Algorithm 5.0阶段为感知与规划大一统,将感知与规划整合进单一的数据驱动模型,实现从原始传感器数据直接输出驾驶动作或轨迹的端到端系统[90][92] - 技术路径的关键转变包括:从任务独立模块逐步整合为端到端系统、从规则驱动转变为数据驱动、从输出环境感知表征演变为直接输出行动决策[97] - 随着系统整合,评估重点从早期的底层感知指标(如RPE)转向更高层的规划质量(如舒适性、安全性)[97]