用QA问答详解端到端落地：[UniAD/PARA-Drive/SpareDrive/VADv2]

端到端自动驾驶模型分类 - 端到端模型分为完全黑盒OneNet和模块化端到端两种类型其中模块化端到端通过感知预测和规划模块间的feat-level/query-level交互减少误差累积 [3] UniAD框架架构 - UniAD框架包含Backbone Perception Prediction和Planner四个模块输入多视角相机图像 Backbone提取BEV特征 Perception完成场景级感知 Prediction基于时序和场景交互进行多模态轨迹预测 Planner基于预测轨迹和BEV特征规划路径各模块均采用Query+Transformer结构实现信息交互 [4] TrackFormer模块设计 - TrackFormer的query由检测query 跟踪query和ego query三部分组成检测query用于识别新目标跟踪query动态变化以匹配目标消失推理过程采用BEVFormer检测新目标并将当前检测query合并到下一时刻跟踪query集合中通过QIM模块与历史track query进行MHA交互获取时序信息 [6] MotionFormer交互机制 - MotionFormer包含三种交互类型：agent-agent（动态agent间交互） agent-map（静态地图交互） agent-goal（目标轨迹交互） motion query由目标点位置上下文信息当前位置及先验位置信息五部分组成输出多模态轨迹训练损失包含轨迹点距离和物理约束 [10] OccFormer结构特点 - OccFormer采用类RNN结构以历史场景特征和稀疏agent特征为输入通过pixel-agent interaction的mask cross-attention机制使场景特征聚焦于局部相关agent信息最终输出包含agent ID的占用网格 [9][11] PARA-Drive并行化改进 - PARA-Drive基于UniAD模块重构连接方式所有子模块采用并行同步协同训练仅通过更新的BEV query实现模块间联系测试时可移除Map/Motion/Occ模块提升推理速度 [13] Panoptic SegFormer分割技术 - 通过多尺度特征融合（s8/s16/s32）作为encoder输入 decoder分两步：第一步用DETR方式精炼query并引入目标检测监督第二步通过cross-attention进一步优化query 输出统一尺寸的特征进行掩码和类别预测 [14][15] SpareDrive稀疏感知架构 - 包含图像编码器对称稀疏感知和运动规划三部分图像编码器提取多视角多尺度2D特征对称稀疏感知并行处理agent检测和地图任务 agent检测采用DETR范式结合时序与非时序decoder 地图任务使用polyline anchor表示道路结构 [17][20] VADv2规划模块设计 - planning transformer输入包括规划token 场景token和导航token 通过交互输出动作概率规划token通过最远距离采样从人类驾驶数据中提取代表性动作轨迹训练使用真实动作概率约束和轨迹冲突损失 [23] 运动规划层级选择机制 - 包含自车实例初始化时空交互和层级规划选择三部分时空交互聚焦实例级历史交互输出多轨迹和多规划方案层级选择先根据驾驶命令筛选轨迹再结合周围agent预测计算碰撞风险最终输出最高分轨迹 [25]