文章核心观点 - 文章系统总结了公司在自动驾驶算法系统构建方面的技术演进路径,涵盖从感知到规划、仿真评测及基础模型的完整技术栈 [2][4][5] - 技术路径呈现递进关系:首先构建端侧策略(从感知到端到端规划),随后为支持端到端模型的闭环评测与训练构建仿真系统,最终通过大数据与大参数构建智驾基础模型以激发潜能 [4] - 公司认为端到端模型主导的方案已趋成熟,下一阶段竞争焦点将集中在高效精准的评测系统以及智驾基础模型的研发上 [30] 3D融合感知框架(Sparse4D系列) - 公司提出Sparse4D系列作为BEV方案的替代,其核心采用稀疏query与内外参投影采样,直接从多视角图像特征获得融合感知结果,理论计算复杂度显著低于BEV方案 [6][7] - Sparse4D v1基础版本采用deformable aggregation算子实现纯稀疏范式融合;v2将时序融合改为recurrent形式,时序复杂度从O(T)降至O(1),并优化了算子实现以提升训练推理速度与性能 [7][9] - Sparse4D v3通过temporal denoising、decouple attention等技术进一步提升检测能力与收敛速度,并以简洁方式实现联合检测与跟踪,在nuScenes数据集camera-only detection和tracking榜单持续位居第一 [11] 端到端运动规划(SparseDrive) - SparseDrive在Sparse4D感知基础上拓展,集成在线建图与简单的运动规划器,实现了检测、跟踪、建图、预测和规划五个任务的端到端处理 [13][15] - 针对稀疏特征输入可能丢失信息的质疑,公司指出大量负样本query能覆盖所有可视范围并受规划损失影响,确保非白名单物体避障能力;当前瓶颈在于规划解码器结构简单且仅进行开环评测,闭环性能需通过仿真器进一步优化 [15] 轨迹预测与交通流仿真(EDA & UniMM) - 公司提出EDA轨迹预测方案,通过动态更新的anchor及NMS匹配策略解决轨迹预测中的正负样本分配核心问题,有效建模多峰分布并具备即插即用优势 [16][17] - 轨迹预测与交通流仿真在输入输出形式上相似,但后者需闭环rollout以建模多交通参与者相互关系;公司提出的UniMM框架统一了主流交通流仿真模型,并分析了影响性能的关键设计因素 [19][20] 传感器仿真(DriveCamSim) - 为支持端到端模型的高效精准评测,公司开发了DriveCamSim传感器仿真系统,其通过显式投影约束3D-2D和时序一致性,能生成任意帧率、相机内外参及数量下的图像,在可控性与拟真性上优于基于3DGS或纯Attention的方案 [22][23][24] - 模型可适应多种条件输入包括3D边界框、地图、自车位姿等,具备良好落地潜力但尚未充分挖掘 [24] 智驾基础大模型(LATR) - LATR项目旨在构建智驾领域基础大模型,首先通过Mask Image Modeling方式在海量数据上进行无监督预训练,使模型理解场景语义、空间及时空关系 [26] - 模型采用decoder-only架构实现多任务统一,新增任务仅需添加少量参数,已成功融合3D检测跟踪、在线建图、轨迹预测、规划等7个任务,效果达到与SparseDrive相当水平,证明了架构有效性 [27]
在地平线搞自动驾驶的这三年
自动驾驶之心·2025-11-11 08:00