端到端自动驾驶
搜索文档
轻舟智航最新GuideFlow:端到端轨迹规划新方案
自动驾驶之心· 2025-11-30 10:02
文章核心观点 - 提出一种基于约束流匹配的新型端到端自动驾驶规划框架GuideFlow,旨在解决多模态轨迹生成中的模式崩溃问题,并通过显式约束嵌入确保轨迹的安全性和物理可行性 [2][3][9][10][11] - 核心创新在于将流匹配与基于能量的模型训练相统一,并直接将显式约束嵌入生成过程,同时引入驾驶激进度参数作为控制信号,实现对轨迹风格的精准调控 [3][11][33] - 在多个主流自动驾驶数据集上的实验验证了其有效性,特别是在高难度场景Navhard上取得了当前最优性能,EPDMS分数达到43.0 [3][15][37] 背景回顾 - 端到端自动驾驶已成为传统模块化流水线的有吸引力替代方案,通过构建可微分统一系统支持跨任务推理,减轻级联误差问题 [9] - 规划技术从单模态向多模态轨迹生成演进,但基于模仿学习的方法易出现模式崩溃,即多模态输出向单一主导模式收敛 [9][10] - 生成式方法如流匹配和扩散模型能表征完整轨迹分布,但采样过程的高随机性和方差给保证安全约束带来根本性挑战 [10] 算法详解 - 框架包含三个核心模块:感知条件速度场生成器、无分类器引导注入驾驶意图与风格、安全约束采样过程 [18] - 感知模块通过查询BEV特征生成智能体令牌和地图令牌,并利用交叉注意力操作实现场景条件建模 [20][21] - 采用无分类器引导训练框架,以概率掩码条件输入,并通过引导尺度控制条件信号对运动的影响强度 [22][23][24] - 约束生成通过三种互补机制实现:速度场约束主动修正运动方向,流状态约束采用类截断策略修正偏离路径,EBM流优化将约束执行融入能量图景 [25][28][29][31][32] 实验结果分析 - 在NavSim数据集的高难度子集Navhard上,集成评分器后GuideFlow取得SOTA性能,EPDMS得分达43.0,较此前最佳结果提升1.3分 [3][15][37] - 在Bench2Drive数据集上,GuideFlow的驾驶分数达75.21,成功率达51.36%,优于多数端到端自动驾驶基线模型 [35][39] - 在开环测试数据集NuScenes和ADV-NuScenes上,GuideFlow实现最低碰撞率,分别为0.07%和0.73%,在短时域预测中表现出高可靠性 [40][41] 消融实验 - 不同动态条件信号中,基于规划锚点引导的模型变体表现最优,EPDMS得分为29.0,驾驶分数达75.21 [43] - 三种约束生成模块均能提升性能,流状态约束和EBM流优化组合使用时效果最佳,EPDMS得分为27.1 [44][45] - 引入激进度评分作为风格条件可调节轨迹激进度,但无差别鼓励激进行为会损害安全约束,导致EPDMS评分下降 [45][46]
轻舟智航最新!GuideFlow:端到端轨迹规划新方案,超越一众SOTA......
自动驾驶之心· 2025-11-26 08:04
文章核心观点 - 北交&轻舟智航等团队提出新型端到端自动驾驶规划框架GuideFlow,基于Constrained Flow Matching显式建模流匹配过程,解决多模态轨迹生成中的模式坍塌问题[2][3] - 核心创新在于将显式约束直接嵌入流匹配生成过程,通过速度场约束、流状态约束和EBM流优化三种策略确保轨迹满足物理和安全约束[3][11] - 框架将驾驶激进度参数化为生成过程控制信号,实现对轨迹风格的精准调控,在主流驾驶基准数据集上取得当前最优性能,Navhard子集EPDMS分数达43.0[3][15][37] 背景回顾 - 端到端自动驾驶将感知、预测和规划构建为统一系统,支持跨任务推理并减轻级联误差问题,但传统单模态规划器无法反映驾驶场景不确定性[9] - 多模态规划方法基于模仿学习训练,因每个场景仅提供一条真实轨迹而出现模式崩溃,生成式方法虽提升多样性但难以保证约束满足[10] 算法框架 - GuideFlow包含感知条件速度场生成器、无分类器引导和安全约束采样三大模块,通过交叉注意力融合智能体令牌与地图令牌实现场景条件建模[20][21] - 采用无分类器引导训练框架,以概率掩码处理条件输入,通过引导尺度控制驾驶意图信号对运动的影响强度[23][24] - 约束生成模块中,速度场约束调整运动方向与参考方向对齐,流状态约束采用类截断策略修正偏离流路径,EBM流优化将约束执行融入能量图景[25][28][31] 实验结果 - 在NavSim数据集Navhard高难度子集上取得SOTA性能,EPDMS分数达43.0,较此前最佳结果提升1.3分[15][37] - Bench2Drive数据集上驾驶分数达75.21,成功率51.36%,优于UniAD、VAD等端到端基线模型[35][39] - 开环测试中,NuScenes数据集平均碰撞率0.07%,ADV-NuScenes数据集0.73%,在短时域预测中可靠性显著[40][41] 技术细节 - 消融实验显示规划锚点引导变体性能最优,EPDMS得分29.0,因锚点封装更丰富的决策信息[43] - 流状态约束与EBM流优化模块组合使用时性能最佳,EPDMS得分27.1,三种约束方法具有互补性[44][45] - 超参数敏感性分析表明,λ值超过0.1会过度干扰速度场,CF模块修正时机需平衡偏差修正与场景适应性[46][47]
博雷顿董事长陈方明:围绕“智能”发展 叩开矿山“系统智能化”大门
证券日报网· 2025-11-25 11:28
文章核心观点 - 博雷顿科技股份公司发布其“9M145E无人驾驶专用矿卡”新产品,该产品以无人驾驶为起点重构整车设计,标志着矿山生产模式从“局部自动化”向“系统智能化”转型的关键节点 [1] - 公司的发展策略将围绕“智能”展开,通过端到端大模型结合算力与单车智能,旨在提升矿山无人驾驶的安全性与运行效率,为公司的持续发展提供支撑 [1] 产品与技术革新 - 新产品“9M145E无人驾驶专用矿卡”取消了驾驶室,重构了力学结构并优化了动力系统与感知布局,以机器人化逻辑进行工程设计,显著提升了车辆在重载、长周期、全天候矿区运营场景下的稳定性与一致性 [1] - 该产品在零部件、传感器、通信方式等方面有诸多行业首创,研发目的是提升车辆可靠性和出勤率 [2] - 公司采用重视觉、轻地图方案,无需大量人力维护高精地图,降低了维护成本;依托AI生成数据,无需人工重复采图和标数据 [4] - 产品涵盖双目视觉、全光谱融合等创新技术,以及双冗余系统、智能故障管理等设计,安全性表现优异 [4] - 公司既是造车企业也是自动驾驶公司,这种软硬件深度结合能让无人驾驶性能更优 [4] 运营模式与效率提升 - 矿山自动化的核心难题在于多台车辆的协同作业,影响产能的主要因素是组织效率问题,如排队、等待、交叉冲突等 [2] - 博雷顿的调度系统以数据驱动的全局优化替代依赖个人经验的传统调度方式,改变了矿山的生产逻辑 [2] - 车辆的运行、维护、能耗和异常数据实时进入智慧调度系统,提升了运营风险、设备负荷和作业状况的可监测与预判性,这种“数字化透明度”成为矿区治理的新基础 [2] - 端到端自动驾驶的综合效率接近甚至部分场景超过人工,目标是实现个位数人员管理百台规模的自动驾驶车辆,显著降低用工人数并提升整体运营效率 [3] - 体系化智能产品具有低成本、部署快、上限高、软硬件深度融合、安全保障全面的优势 [4] 行业趋势与公司战略 - 矿山智能化转型不仅是技术升级,更在重塑产业链结构:设备制造商向系统能力提供者转型;能源供应与储能服务与场景绑定;数据能力成为重要资产;矿企人才需求从驾驶操作向系统管理与数字治理倾斜 [3] - 矿山智能化需要跨越机械、能源、算法与管理的综合能力,无人驾驶最终要以整体效率制胜 [3] - 公司未来战略重点向智能化车辆倾斜,自2025年起(注:原文“明年起”),每一台下线的车都将支持无人驾驶并采用线控底盘;到2026年,自制的矿卡将全部支持无人驾驶 [4] - 公司通过正向设计降低成本,方便客户后续升级,无需额外更换车辆 [4]
留给端到端和VLA的转行时间,应该不多了......
自动驾驶之心· 2025-11-25 08:03
课程核心观点 - 自动驾驶技术正从模块化量产算法向端到端和视觉语言动作模型演进,掌握相关前沿技术对职业发展至关重要 [1] - 行业端到端和视觉语言动作模型岗位即将饱和,为从业者留下的窗口期已不多 [1] - 推出《端到端与视觉语言动作模型自动驾驶小班课》和《自动驾驶视觉语言动作模型和大模型实战课程》,旨在帮助学员快速高效入门 [1] 自动驾驶视觉语言动作模型与大模型实战课程 - 课程聚焦视觉语言动作模型领域,内容涵盖从视觉语言模型作为自动驾驶解释器到模块化、一体化及当前主流的推理增强视觉语言动作模型 [1] - 课程配套理论基础梳理,包括视觉、语言、动作三大模块、强化学习、扩散模型等,并设有大作业章节指导学员从零搭建自己的视觉语言动作模型及数据集 [1] - 由学术界专家带队,适合刚接触大模型和视觉语言动作模型的学员 [1] 端到端与视觉语言动作模型自动驾驶课程 - 课程聚焦端到端自动驾驶宏观领域,梳理一段式/两段式方向的重点算法和理论基础,详细讲解鸟瞰图感知、大语言模型、扩散模型和强化学习 [9] - 课程设计两大实战项目:基于扩散模型的Diffusion Planner和基于视觉语言动作模型的ORION算法 [9] - 由工业界专家带队,讲师为国内顶级主机厂算法专家,拥有端到端算法研发和产品量产交付经验 [9][11] 师资团队 - 讲师团队由学术界和工业界专家组成,包括清华大学硕士生、QS30高校博士等,在ICCV、IROS、EMNLP等顶级会议发表多篇论文 [6][8][11] - 团队拥有多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验,并主持完成多项自动驾驶框架工具和产品量产 [6][8][11] - 一位讲师在GitHub上维护的自动驾驶与计算机视觉开源项目总Star数已超过2k [6] 目标学员与技术要求 - 学员需自备GPU,推荐算力在4090及以上 [12] - 要求具备一定的自动驾驶领域基础,熟悉基本模块,了解Transformer大模型、强化学习、鸟瞰图感知等技术概念 [13] - 需具备概率论、线性代数基础及Python和PyTorch编程能力 [13]
浙大一篇中稿AAAI'26的工作DiffRefiner:两阶段轨迹预测框架,创下NAVSIM新纪录!
自动驾驶之心· 2025-11-25 08:03
文章核心观点 - 提出一种名为DiffRefiner的全新两阶段轨迹预测框架,该框架融合了判别式轨迹提议与生成式扩散精炼,旨在解决端到端自动驾驶规划中的多模态挑战 [3][9] - 该框架通过基于Transformer的提议解码器生成粗粒度轨迹预测,再通过扩散精炼器进行迭代优化,显著提升了规划性能 [3][9] - 在NAVSIM v2和Bench2Drive两个公开基准测试中均达到当前最优性能,EPDMS分数为87.4,驾驶分数为87.1,成功率为71.4% [3][11][41][42] 技术背景与动机 - 传统单阶段回归方法在处理轨迹预测任务的多模态特性方面存在局限,易导致预测效果欠佳和泛化能力差 [7] - 基于扩散模型的生成式方法能学习未来运动的潜在分布,生成多样化轨迹,但依赖无结构噪声或固定锚点初始化,存在计算延迟和场景适应性不足的问题 [2][8] - 离散化解空间的方法(如基于评分的方法)随着锚点集规模增大会导致计算复杂度显著增加,限制其在延迟敏感系统中的应用 [7] DiffRefiner框架设计 - 采用粗到细的两阶段架构:第一阶段使用基于Transformer的提议解码器回归预定义轨迹锚点,生成粗粒度轨迹提议 [9][14][20] - 第二阶段引入条件扩散精炼器,对初始提议进行迭代去噪与优化,并设计了细粒度去噪解码器以增强场景适应性 [9][14][22] - 框架整合三个关键组件:以BEV为中心的感知模块、粗轨迹提议解码器和基于扩散的轨迹精炼器 [14] 关键技术创新 - 提出细粒度语义交互模块,通过交叉注意力和可变形注意力分层整合全局场景上下文与局部几何细节,实现轨迹与环境的精准对齐 [10][27][30] - 采用自适应门控网络动态融合全局场景表征与局部语义信息,平衡粗粒度上下文理解与精准空间对齐 [10][32] - 通过两阶段训练方案优化模型,采用赢者通吃策略选择最接近真实轨迹的预测进行损失计算 [34][36] 实验验证与性能 - 在NAVSIM v2开环基准测试中,EPDMS分数达到87.4,使用ResNet34骨干网络时相比之前最佳方法提升3.7%,使用V2-99骨干网络时提升1.6% [3][41] - 在Bench2Drive闭环基准测试中,驾驶分数达到87.1,成功率达到71.4%,相比之前最佳方法驾驶分数提升0.3,成功率提升2.3 [3][42] - 消融实验证实了各组件有效性,引入精炼器使EPDMS提升1.2,仅需一次去噪步骤即可实现接近最优性能,表明框架适用于实时系统 [43][50] 性能优势体现 - 在复杂交互场景中,该方法能更好地关注细粒度场景细节,减少与周围智能体的碰撞,并更严格地遵守地图约束 [51] - 该混合范式在大多数多能力指标上均取得持续提升,证明了其在多样化交互式驾驶场景中的鲁棒性和有效性 [42]
自动驾驶三大技术路线:端到端、VLA、世界模型
自动驾驶之心· 2025-11-21 08:04
文章核心观点 - 行业当前致力于解决安全且经济的 corner case 问题 [1] - 技术路线存在三大核心争议:单车智能与智能网联、视觉与激光雷达传感器、模块化与端到端算法架构 [1] - AI决策领域呈现VLM、VLA、WA(去LLM)三种主流技术路径分化,代表企业分别为Waymo、特斯拉/吉利/小鹏、华为 [1] - 自动驾驶技术演进遵循从规则系统到数据驱动,再到认知建模的路径 [3] 技术演进与架构 分阶段模块化架构 - 传统架构划分为感知(定位)、预测、规划、控制五大独立模块 [5] - 感知模块负责处理图像与点云数据,完成目标检测与地图分割任务 [5] - 定位模块融合GPS、IMU及地图匹配技术以确定车辆精确位置 [5] - 预测模块在几何空间内运行,预测周围环境未来状态(如车辆轨迹) [5] - 规划模块结合导航与感知信息,在有限时间内生成安全舒适的可行驶轨迹 [5] - 控制模块精确执行油门、刹车及转向指令 [5] BEV与OCC感知技术 - BEV感知于2022年成为主流,OCC感知于2023年兴起 [3] - BEV核心价值在于统一多传感器数据的表征空间,解决信息融合根本问题 [14] - BEV优势包括天然适配动态/静态感知、快速替代传统检测方案、99%常规场景可收敛 [15] - BEV缺陷体现在非结构化场景与超复杂路口(150米+)存在瓶颈,暴露纯几何表征天花板 [15] - OCC占用网络提供时间维、空间维及不确定性数据,优于仅提供目标检测的BEV [6] - 为解决BEV高度信息缺失及LSS投影缺陷(离散稀疏、不连贯、无容错),行业引入3DGS技术 [16][17] - 3DGS通过"软投影"特性实现连续致密特征、平滑过渡及容错能力,提升BEV感知质量 [18][19] 端到端自动驾驶 定义与分类 - 端到端系统定义为从传感器原始输入到任务变量输出的完全可微过程 [20][22] - 狭义端到端指传感器数据直接输出规划/控制动作或行驶轨迹 [22] - 技术演进分为四个阶段:感知端到端、决策规划模型化、模块化端到端、One Model单一模型端到端 [31] - 模块化端到端(华为、小鹏、理想采用)实现感知与规划模块的梯度协同训练,接口基于特征向量 [31] - One Model端到端(特斯拉采用)采用单一深度学习模型直接映射原始信号至轨迹输出 [31] 优势与挑战 - 端到端本质是实现感知信息的无损传递,通过梯度反传实现全局优化 [22][25] - 传统分阶段架构问题在于各模块独立优化导致的阶段目标不一致、误差累积及计算负担 [27] - 端到端面临可解释性悖论(性能提升但安全性可解释性降低)、数据规模与质量要求高、长尾场景覆盖度不足三大挑战 [27][28] - 决策层技术路线包括模仿学习(快速获得基础能力但泛化性不足)与强化学习(学得鲁棒策略但依赖仿真环境) [29] VLM、VLA与WA技术路径 VLM(视觉语言模型) - VLM让AI负责环境理解与推理,最终决策权交由传统模块以确保过程可控,代表企业为Waymo [1][35] - 技术流程为环境信息输入→VLM→推理链/多任务→非直接控制输出,运行频率低(2-5 Hz) [36] - VLM能够解释复杂交通场景并提升系统可解释性,但存在"行动鸿沟",即语言输出与实际控制脱节 [36] - 输入数据包括视觉输入(多摄像头图像、BEV特征图)、Prompt指令、导航指令及用户指令 [36] VLA(视觉语言动作模型) - VLA试图让AI直接学习所有驾驶技巧,通过海量数据训练实现"端到端"决策,代表企业为特斯拉、吉利、小鹏 [1][39] - 技术流程为环境信息输入→多模态编码器→LLM/VLM→动作解码器→驾驶动作,形成感知推理行动闭环 [40] - 语言输入演进历经直接导航指令、环境查询、任务级指令至对话式推理四个阶段 [42] - 动作解码器可采用自回归令牌器、扩散模型头或分层控制器生成控制信号或轨迹点序列 [42] - 小鹏第二代VLA为商业应用代表,技术发展历经语言模型作为解释器、模块化VLA、统一端到端VLA、推理增强VLA四个阶段 [44][48] WA(世界动作模型)与路线之争 - 华为ADS 4采用WEWA架构(世界引擎+世界动作模型),强调无需语言组件,直接建立时空认知能力 [1][52][55] - WEWA架构核心逻辑为视觉直接映射动作,跳过语言转化环节,关键指标为端到端时延降低50%、重刹率降低30% [56] - VLA架构核心逻辑为视觉-语言-动作三级传导,以语言为中介,优势在于复杂场景决策准确率提升及支持自然语言交互 [56] - 语言模型价值在于跨场景知识迁移能力(如预训练模型规划误差降低27.12%)、多模态信息统一表征及决策可解释性 [57] - 技术路线核心差异在于是否依赖语言抽象,VLA依赖语言模型归类场景,而WEWA主张直接学习时空物理规律 [55][57]
和港校自驾博士交流后的一些分享......
自动驾驶之心· 2025-11-20 08:05
自动驾驶技术社区与资源平台 - 该公众号文章核心是推广"自动驾驶之心知识星球"社区,该社区定位为自动驾驶领域的技术交流与资源平台 [2][6][16] - 社区已运营三年,目前拥有超过4000名成员,目标在未来2年内达到近万人规模 [6][7] - 社区内容形式包括视频、图文、学习路线、问答和求职交流,覆盖40多个自动驾驶技术方向 [6][9][16] 社区成员构成与合作伙伴 - 社区成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校实验室 [16] - 企业成员包括蔚小理、地平线、华为、大疆、广汽、上汽、博世等近300家自动驾驶相关公司 [16][95] - 平台与多家自动驾驶公司建立了岗位内推机制,提供简历直推服务 [11] 技术内容覆盖范围 - 社区系统梳理了自动驾驶全技术栈,包括感知、规划控制、仿真、端到端、VLA等40多个方向 [9][16][17] - 具体技术领域包括BEV感知、3D目标检测、多传感器融合、Occupancy Network、轨迹预测、SLAM等 [10][50][52][54][57][58][77] - 涵盖前沿热点如世界模型、视觉语言模型(VLM)、自动驾驶VLA、扩散模型、3DGS与NeRF等 [40][42][44][48][38] 学习资源与课程体系 - 社区提供原创视频课程,包括感知融合、多传感器标定、SLAM与高精地图、决策规划等9大系列 [11] - 汇总了近60个自动驾驶数据集、行业主流仿真平台及各类技术学习路线 [16][34] - 设有"自动驾驶100问"系列,涵盖TensorRT模型部署、毫米波雷达融合、车道线检测等7个专题 [10] 学术交流与行业洞察 - 定期举办星友面对面交流活动,目前已开展至第四期,邀请学术界和工业界专家探讨技术趋势 [2] - 社区内部经常解答端到端入门、多模态大模型学习路线、数据闭环工程实践等实用问题 [7] - 不定期邀请一线大佬直播分享,目前已举办超过100场专业技术直播 [87] 社区特色服务 - 为初学者提供全栈方向学习课程和技术路线图,适合0基础入门 [10][11][17] - 汇总了国内外自动驾驶高校实验室和公司信息,为升学就业提供参考 [26][28] - 提供快速问答服务,成员可自由提问工作选择、研究方向等实际问题 [89]
模仿学习之外,端到端轨迹如何优化?轻舟一篇刷榜的工作......
自动驾驶之心· 2025-11-10 11:36
文章核心观点 - 北交、轻舟、燕山大学、澳洲昆士兰大学的团队提出了一种名为CATG的新型端到端自动驾驶轨迹生成框架,该框架基于Constrained flow matching技术,旨在解决现有方法在行为多样性和安全约束集成方面的局限性[1][3][4] - CATG框架的核心创新在于彻底摒弃模仿学习,显式建模flow matching过程以缓解模式崩溃,并支持在生成过程中灵活注入多种条件信号和显式约束,从而实现对轨迹风格和安全性的精准调控[1][4][7] - 在ICCV NAVSIM V2端到端驾驶挑战赛中,CATG以51.31的EPDMS得分获得亚军,并荣获创新奖,证明了其在规划精度和对分布外数据的稳健泛化能力[1][4][22] 技术背景与问题定义 - 端到端多模态规划是自动驾驶系统的关键方法,在模糊或高度交互的驾驶场景中尤为重要,但大多数现有方法依赖模仿学习框架,导致预测结果同质化,缺乏行为多样性[3] - 现有生成式方法如扩散模型虽能捕捉更广泛的轨迹分布,但存在模式崩溃风险,且难以将硬约束集成到生成过程中,影响了生成轨迹的安全性和可解释性[3][6] 方法论创新 - 提出基于flow matching的多模态轨迹生成器CATG,无需依赖模仿学习,支持多样化、灵活的条件控制[7] - 通过渐进式机制将可行性约束和安全约束显式集成到生成过程,利用先验感知锚点设计构建约束引导的概率流,并通过基于能量的引导将轨迹导向可行区域[7][13][17] - 将环境奖励信号作为条件输入,在推理阶段实现激进驾驶风格与保守驾驶风格之间的可控权衡[7][13] 技术实现细节 - 采用Transfuser作为感知骨干网络,从标准高斯分布中采样起点,并将目标轨迹归一化到特定区间[8] - 通过多层交叉注意力机制融合智能体查询向量、自车查询向量以及鸟瞰图特征[10][12] - 在推理阶段引入三类条件控制信号:轨迹锚点、目标点和驾驶指令,以实现对生成轨迹的灵活控制[13][16] 约束集成策略 - 约束速度场:利用预计算的速度场修正模型预测的可能存在偏差的速度场,提出"合成速度场"概念[17] - 约束中间变量:通过修正流的起点,将初始高斯随机样本替换为满足约束的锚点,间接控制最终生成结果[17] - 约束感知训练:在训练阶段通过能量函数编码约束,采用能量匹配框架进行模型训练[17] 实验设置与结果 - 模型训练分为两个阶段:第一阶段训练flow matching过程、感知模块与地图分割模块,批大小设为64,学习率未明确,共训练90轮;第二阶段仅对流传匹配过程进行微调,共训练10轮[14][18] - 在NAVSIM V2挑战赛中,CATG在多项关键指标上表现优异,例如第一阶段可驾驶区域合规性达100%,交通信号灯合规性达100%,第二阶段可驾驶区域合规性达95.4416%[19] - 最终以51.3116的扩展PDM综合得分获得亚军[19]
“中文AI三大顶会”已有两家报导了理想近期AI进展
理想TOP2· 2025-11-09 22:59
中文AI媒体对理想汽车的报道热度 - 机器之心、量子位、新智元被戏称为“中文AI三大顶会”,在懂中文的AI从业者中拥有广泛读者群 [1] - 量子位于2025年11月8日发布关于ICCV自动驾驶新范式的文章,获得3.2万阅读、926大拇指赞、1617次转发和610爱心赞,阅读量在其近一周推文中排名第二 [1] - 机器之心于2025年10月31日发布关于理想汽车L4自动驾驶新范式的文章,作为次条推送获得3.9万阅读,该阅读量在机器之心的次条和头条中均属较高水平 [1] - 机器之心对理想汽车的报道跟进最为细致,覆盖了i8发布会自动驾驶内容并对多篇论文进行跟踪 [4] - 量子位除2025年11月的报道外,上一次专门撰写理想汽车的内容是对其24Q1财报的解读,再之前的报道集中在2021年 [10] - 新智元对理想汽车的上次报道集中在2022年 [15] 理想汽车自动驾驶技术进展与行业认可 - 理想汽车在ICCV 2025上提出“训练闭环”新范式,为全球首个将世界模型与强化学习结合并落地量产自动驾驶系统的公司 [2] - 该技术通过合成数据解决罕见场景问题,使MPI(人类接管里程)显著提升,技术细节扎实,对自动驾驶/AI领域从业者极具参考价值 [2] - 评论区对理想的评价非常正面,用户称赞其为“中国车企楷模”,认为其科研硬核得不像车企 [2] - 理想的研发资金近一半投在了人工智能领域 [2] - 专注于自动驾驶内容的媒体“自动驾驶之心”在2024年至2025年间约有45篇文章讲述理想汽车,表明理想已成为该领域主流玩家 [17] - 理想汽车从2021年开始辅助驾驶研发,历程从最初的BEV方案发展到无图辅助驾驶 [5] - 公司在自动驾驶技术上探索端到端(e2e)和视觉语言模型(VLM)的实现路径 [5] 理想汽车的AI战略与长期愿景 - 理想汽车在2022年9月内部达成共识,认为要实现自动驾驶,公司必须成为一家AI公司,并于2023年1月正式对外公布,目的之一是招人广告 [17] - 公司创始人李想在2015年因相信自动驾驶能实现且智能车产业足够大而选择创业,当时未意识到自动驾驶本质是AI问题 [17] - 至2024年12月,李想接受了OpenAI定义的AI五阶段理论,认为自动驾驶变成中短期可实现目标,并认为VLA是解决方案 [17] - 公司现阶段需要自己做基座模型,自己开发大语言模型(LLM) [17] - 公司从事这些研究的最终目的不仅是为了实现自动驾驶,更是基于对OpenAI AI五阶段的远期展望,为了挑战成长极限,旨在成为最顶尖的AI公司 [18] - 有AI领域账号在2025年4月对理想汽车做LLM感到困惑,不确定其是想开辟新赛道还是在车企中做差异化竞争 [17] 理想汽车在AI圈的品牌认知度 - 截至2025年5月,理想汽车在自动驾驶以外的中文AI圈知名度很低 [22] - 尽管量子位、机器之心在2025年11月的报道提升了其知名度,但预期现阶段理想在中文自动驾驶圈已非常有名并被充分认可为主流玩家,在非自动驾驶中文AI圈则知名度相当低 [22]
地平线ResAD:残差学习让自动驾驶决策更接近人类逻辑
自动驾驶之心· 2025-11-08 00:04
文章核心观点 - 地平线、华科和武大团队提出的ResAD框架通过归一化残差轨迹建模方法,解决了端到端自动驾驶中直接预测整条轨迹导致的因果混淆和规划困境两大核心问题 [2] - ResAD框架的核心思想是不直接预测整条轨迹,而是先给出一个基于物理的惯性参考线,然后让模型只学习一个调整量(残差),将学习目标从“轨迹是什么”转变为“为什么要调整方向” [2] - 该方法在NAVSIM v1和v2基准测试中均实现了最先进的性能,PDMS达到88.6,EPDMS达到85.5,展现出优秀的可行性与系统可靠性 [38][39] 技术方法创新 - **轨迹残差建模**:模型不直接从零开始预测整个未来轨迹,而是学习预测对一个简单的、基于物理的基线(惯性参考轨迹)的必要修正,量化人类驾驶员为导航环境所施加的精确修正 [17][18][19] - **逐点残差归一化**:对残差轨迹进行基于分量的标准最小-最大缩放,解决轨迹预测中坐标在时间维度上的尺度差异问题,确保优化过程不被远场误差所主导 [20][22][23] - **惯性参考扰动**:通过将随机扰动引入初始速度,生成包含略微变化的惯性参考簇,自然地产生一组多样化且与上下文相关的路径,实现多模态规划 [24][25][26] 性能表现 - 在NAVSIM v1基准测试中,ResAD的PDMS为88.6,其中NC为98.0,DAC为97.3,EP为82.5,在安全性和路线完成效率方面表现优异 [38] - 在更具挑战性的NAVSIM v2基准上,ResAD的EPDMS为85.5,比DiffusionDrive高出1.0,EP得分为88.2(对比87.5),DAC得分为97.2(对比95.9) [39] - 实车测试视频显示,在近20分钟视频中,系统在施工路段借道绕行等复杂情形下均能稳定通过,并能对动态障碍物做出智能响应 [6] 与现有方法对比 - 与传统端到端方法相比,ResAD避免了因果混淆问题(如前车刹车灯亮就刹车但不理解路口变红灯)和规划困境(过度关注不确定的远期预测) [5] - 与依赖静态预定义轨迹词库的多模态规划方法(如DiffusionDrive)不同,ResAD通过扰动惯性参考直接从高斯噪声中去噪,产生更优的、与上下文相关的多模态轨迹 [10][41] - 消融研究表明,轨迹残差建模将DAC指标从94.3提高到96.6,EP从77.8提高到80.3;结合PRNorm和惯性参考扰动后,PDMS分数从87.2提高到88.6 [43]