SparseDrive
搜索文档
在地平线搞自动驾驶的这三年
自动驾驶之心· 2025-11-24 08:03
文章核心观点 - 文章系统回顾了公司在自动驾驶领域的一系列核心技术研究,这些研究构成了一个从感知到规划、再到仿真评测和基础模型的完整技术链路 [2][4][5] - 技术路径从Sparse4D系列融合感知出发,逐步拓展至SparseDrive端到端运动规划,并针对长期迭代需求开发了UniMM交通流仿真和DriveCamSim传感器仿真,最终探索了智驾基础大模型LATR [4][5][30] - 认为端到端模型是行业明确方向,但未来性能提升高度依赖于高效、准确的云端评测系统,而非完全依赖实车测试 [22][30][31] 3D融合感知(Sparse4D系列) - Sparse4D系列采用稀疏query加内外参投影采样的方式,直接从多视角图像特征得到融合感知结果,理论计算复杂度远小于BEV方案 [6][7] - Sparse4D v1核心是deformable aggregation算子,实现了纯稀疏范式的融合感知 [7] - Sparse4D v2将时序融合方式改为recurrent形式,时序复杂度从O(T)降低至O(1),并优化了算子实现,提升了训练推理速度和模型性能 [9] - Sparse4D v3通过temporal denoising、decouple attention等技术提升性能,并以简洁方式实现了联合检测与跟踪,在nuScenes camera-only detection和tracking榜单位居第一 [11] 端到端运动规划(SparseDrive) - SparseDrive在Sparse4D基础上,增加了online mapping任务并设计了运动规划器,实现了检测、跟踪、建图、预测和规划五个任务的端到端处理 [13][15] - 采用稀疏feature作为planner输入,通过大量负样本query覆盖所有可视范围,以应对非白名单物体的避障问题 [15] - 当前规划decoder结构较简单,且仅在nuScenes上进行开环评测,闭环性能有待通过仿真器进一步优化 [15] 轨迹预测与交通流仿真(EDA & UniMM) - EDA提出了动态更新的anchor概念,并采用NMS策略进行匹配,能有效建模轨迹预测的多峰分布,且可与多数预测模型即插即用 [16][17] - 轨迹预测是连接感知和决策的中间件,但其应用受感知噪声和下游使用复杂性限制 [19] - UniMM将交通流仿真的主流模型Continuous Mixture Models和GPT-Like Discrete Models进行了统一,并提出了通用算法框架 [20] - 交通流仿真通过每一步重新采样的方式绕开直接建模多车联合概率,比联合轨迹预测更能反映算法真实性能 [19][20] 传感器仿真(DriveCamSim) - DriveCamSim旨在构建高度可控的传感器仿真系统,通过显式投影约束3D-2D和时序一致性,解耦了时间和空间概念 [23][24] - 模型可生成任意帧率、任意相机内外参、任意相机数量下的图像,适应的condition包括3D bounding box、地图、自车pose等 [24] - 相比于基于3DGS的重建方案或完全依赖Attention的生成方案,该方法在可控性和一致性上具有显著优势 [23][24] 智驾基础模型(LATR) - LATR目标是通过海量数据无监督训练和大参数量,构建能理解智驾场景语义、空间和时空关系的基础模型 [26] - 采用Mask Image Modeling进行预训练,并通过精心设计的masking策略加大补全难度以提升训练效果 [26] - 设计了decoder-only的统一架构,将7个任务融合到同一框架中,新增任务仅需增加一个MLP,最大程度复用预训练参数,效果达到与SparseDrive相当的水平 [27]
在地平线搞自动驾驶的这三年
自动驾驶之心· 2025-11-11 08:00
文章核心观点 - 文章系统总结了公司在自动驾驶算法系统构建方面的技术演进路径,涵盖从感知到规划、仿真评测及基础模型的完整技术栈 [2][4][5] - 技术路径呈现递进关系:首先构建端侧策略(从感知到端到端规划),随后为支持端到端模型的闭环评测与训练构建仿真系统,最终通过大数据与大参数构建智驾基础模型以激发潜能 [4] - 公司认为端到端模型主导的方案已趋成熟,下一阶段竞争焦点将集中在高效精准的评测系统以及智驾基础模型的研发上 [30] 3D融合感知框架(Sparse4D系列) - 公司提出Sparse4D系列作为BEV方案的替代,其核心采用稀疏query与内外参投影采样,直接从多视角图像特征获得融合感知结果,理论计算复杂度显著低于BEV方案 [6][7] - Sparse4D v1基础版本采用deformable aggregation算子实现纯稀疏范式融合;v2将时序融合改为recurrent形式,时序复杂度从O(T)降至O(1),并优化了算子实现以提升训练推理速度与性能 [7][9] - Sparse4D v3通过temporal denoising、decouple attention等技术进一步提升检测能力与收敛速度,并以简洁方式实现联合检测与跟踪,在nuScenes数据集camera-only detection和tracking榜单持续位居第一 [11] 端到端运动规划(SparseDrive) - SparseDrive在Sparse4D感知基础上拓展,集成在线建图与简单的运动规划器,实现了检测、跟踪、建图、预测和规划五个任务的端到端处理 [13][15] - 针对稀疏特征输入可能丢失信息的质疑,公司指出大量负样本query能覆盖所有可视范围并受规划损失影响,确保非白名单物体避障能力;当前瓶颈在于规划解码器结构简单且仅进行开环评测,闭环性能需通过仿真器进一步优化 [15] 轨迹预测与交通流仿真(EDA & UniMM) - 公司提出EDA轨迹预测方案,通过动态更新的anchor及NMS匹配策略解决轨迹预测中的正负样本分配核心问题,有效建模多峰分布并具备即插即用优势 [16][17] - 轨迹预测与交通流仿真在输入输出形式上相似,但后者需闭环rollout以建模多交通参与者相互关系;公司提出的UniMM框架统一了主流交通流仿真模型,并分析了影响性能的关键设计因素 [19][20] 传感器仿真(DriveCamSim) - 为支持端到端模型的高效精准评测,公司开发了DriveCamSim传感器仿真系统,其通过显式投影约束3D-2D和时序一致性,能生成任意帧率、相机内外参及数量下的图像,在可控性与拟真性上优于基于3DGS或纯Attention的方案 [22][23][24] - 模型可适应多种条件输入包括3D边界框、地图、自车位姿等,具备良好落地潜力但尚未充分挖掘 [24] 智驾基础大模型(LATR) - LATR项目旨在构建智驾领域基础大模型,首先通过Mask Image Modeling方式在海量数据上进行无监督预训练,使模型理解场景语义、空间及时空关系 [26] - 模型采用decoder-only架构实现多任务统一,新增任务仅需添加少量参数,已成功融合3D检测跟踪、在线建图、轨迹预测、规划等7个任务,效果达到与SparseDrive相当水平,证明了架构有效性 [27]
端到端系列!SpareDrive:基于稀疏场景表示的端到端自动驾驶~
自动驾驶之心· 2025-06-23 19:34
端到端自动驾驶技术研究 - 现有端到端方法存在两个主要问题:BEV范式算力消耗大,预测与规划串联式设计忽略自车信息且两者均为多模态问题 [2] - 提出SparseDrive解决方案:采用稀疏场景表示的端到端方法,实现预测与规划并行处理 [2] - 技术贡献包括:探索稀疏场景表示、分层规划选择策略、在nuScenes数据集达到SOTA水平 [5] 模型架构与训练 - 主体结构沿用地平线Sparse系列思想,包含特征提取、对称稀疏感知、平行运动规划器等模块 [5] - 采用多任务损失函数:${\mathcal{L}}={\mathcal{L}}_{d e t}+{\mathcal{L}}_{m a p}+{\mathcal{L}}_{m o t i o n}+{\mathcal{L}}_{p l a n}+{\mathcal{L}}_{d e p t h}$ [9] - 训练分为两个阶段:stage1从头训练稀疏感知模块(SparseDrive-S:100 epochs,lr 4×10-4),stage2微调(10 epochs,lr 3×10-4) [10] 性能对比 感知能力 - SparseDrive-B在3D检测指标全面领先:mAP 0.496 vs UniAD 0.380,NDS 0.588 vs 0.498 [11] - 多目标跟踪表现:AMOTA 0.501(SparseDrive-B)显著优于UniAD 0.359,Recall达0.601 [11] - 在线建图能力:MAP 56.2(SparseDrive-B)超越VectorMapNet 56.1和MapTR 58.7 [17] 运动预测与规划 - 预测指标:minADE 0.60m(SparseDrive-B)优于UniAD 0.71m,MR 0.132 vs 0.151 [18] - 规划指标:平均L2误差0.58m(SparseDrive-B),碰撞率0.06%显著低于UniAD 0.61% [18][24] - 效率优势:SparseDrive-S推理速度9FPS,显存占用1294M,远优于UniAD的1.8FPS/2451M [20] 工业级课程体系 - 课程覆盖端到端算法全链路:从基础模块(感知/预测/规划)到完全端到端方案(UniAD/VAD/SparseDrive等) [34][46] - 实战内容包含环境配置、数据加载、核心代码解析及可视化,配套UniAD和PlanT算法完整实现 [35][36] - 目标受众:自动驾驶领域研究生、算法工程师及转行人员,需具备Python/PyTorch基础及GPU环境 [55][56]