端到端自动驾驶的万字总结：拆解三大技术路线（UniAD/GenAD/Hydra MDP）

端到端自动驾驶算法研究背景 - 传统自动驾驶算法采用模块化流程：感知模块输入图像或激光雷达数据输出边界框，预测模块输出轨迹，最后进行规划[5][6] - 端到端算法直接输入原始传感器数据并输出路径点，路径点可转换为控制信号且回归相对容易[6] - 传统算法优点包括易于调试和问题定位，具有可解释性，但存在误差累积问题，无法保证感知和预测模块完全无误差[7][10] 端到端算法现有范式与局限性 - 模仿学习分为行为克隆和逆优化控制，强化学习方法在论文中较少见[11] - 评估方法分为开环评估（使用固定场景数据）和闭环评估（自车与环境存在交互）[11] - 模仿学习难以有效解决所有corner case问题，真值数据本身存在噪声，人类驾驶数据并非完全最优解[11] - 当前挑战包括可解释性问题、安全保证以及因果混淆现象，例如绿灯起步时误将旁边车道车辆起步作为启动信号[12] - 还需解决输入模态多样性、多任务学习及知识蒸馏等技术难题[12] ST-P3算法框架与创新 - 输入为环视相机图像，设计三个核心模块：感知、预测和规划，最终输出自动驾驶车辆轨迹[14] - 感知模块采用以自车为中心的累积对齐技术，预测模块通过双路预测机制实现，规划模块引入先验信息对生成轨迹进行优化[15] - 感知模块中结合预测的深度信息，采用类似LSS范式的方法得到BEV空间表示，创新点在于考虑RO角和PG角不为零的情况[18] - 预测模块采用双路结构，一路通过GRU进行递归处理，另一路引入高斯噪声进行前向迭代，两路输出融合得到T+10、T+20时刻状态特征[18] - 规划阶段利用前视相机获取红绿灯信息，并对预测轨迹进行优化，优化过程包括自车预测轨迹的代价函数和预测轨迹与真实轨迹之间的L2距离[19][20] UniAD算法框架与创新 - 采用全Transformer框架，以规划为导向构建端到端自动驾驶系统[25] - 引入五个代理任务（Head Task）通过增加任务数量提升性能，创新点在于规划导向设计[24] - Backbone部分与BVFormer相同获取BEV特征，MapFormer将Segformer的2D版本扩展至3D用于实例分割[26] - MotionFormer通过三种交互进行预测：Agent之间交互、Agent与地图交互、Agent与目标点交互，输出预测轨迹、特征及每条轨迹评分[26] - OccFormer利用MotionFormer的Agent级特征作为KV，BEV特征作为Q，计算实例级占用情况[26] - Planner输入包括自车运动轨迹特征、位置编码、OccFormer输出以及BEV特征，规划时需考虑未来占用情况确保选择可行区域[26] VAD算法矢量表征与约束 - 采用矢量化表征方法，将栅格化表征转换为矢量化形式，更好表达地图元素结构信息保持几何特性[32] - 矢量表征包含运动矢量（motion vector）和地图矢量（map vector），通过地图查询经地图变换器处理后预测地图矢量，通过智能体查询预测运动矢量[32][33] - 规划过程中引入三个主要约束：自车与他车之间碰撞约束（涉及横向和纵向距离）、自车与边界之间距离约束、自车方向约束（通过计算自车向量与车道线向量角度差确保行驶方向正确）[40] 概率化规划方法 - 规划是不确定性任务，确定性方法无法处理掉头等情况，概率化表征方法将规划流视为概率分布从而选择最优轨迹[43] - 实现借鉴类似GPT的ARP思想：初始化动作空间并离散化，规划词汇表收集4096种可能动作（如直行、加速、刹车、左转、右转等），编码后生成planning token[43] - 通过场景token与planning token交互，结合自车状态和导航信息，预测动作分布并选择概率最高的标准轨迹作为规划结果[44] GenAD生成式建模方法 - 将自动驾驶建模为轨迹生成问题，考虑自车与他车在未来帧中的交互，采用类似VAE的生成式建模思路[44] - 训练时学习轨迹分布，推理时采样分布并通过解码器生成路径点，关键点在于训练过程中构建有效的监督信号[44][45] - 训练阶段将GT的track query trajectory通过编码器编码得到latent space轨迹表征，通过解码器重构当前轨迹并与原始真值轨迹进行监督训练[45] 多模态规划与监督学习 - 引入多模态规划方法解决轨迹预测不稳定性问题，通过预测多个候选轨迹并选择最优轨迹进行模型学习[53] - 结合多模态规划与多模型学习方法，在多轨迹预测的模型学习损失基础上增加知识蒸馏损失，蒸馏损失来源于多种基于规则的教师模型[53] - 额外监督信号包括无责任碰撞、可行驶区域合规性、驾驶舒适性等指标，均纳入回归损失函数进行反向传播[56] 端到端算法当前局限性 - 主要采用模仿学习框架，作为纯数据驱动方法优化过程较为困难[57] - 难以学习到最优真值（Ground Truth），对异常案例（Counter Case）的处理能力有限[57]