百度智驾方案解析
百度自动驾驶技术架构 - 公司采用感知大模型与规划大模型相结合的架构 [2] - 系统采用端到端联合训练方式,从原始传感器时序数据直接到油门和转向控制输出 [3][5] - 联合训练确保感知部分的中间态数据以模型自身可理解的隐式数据空间形式,携带最佳信息丰度和准确度进入决策规划网络 [5] 端到端联合训练的具体实现 - 在端到端联合训练前,感知和规划分模型的独立训练与调整仍是必要的,以确保中间态数据符合人类对感知结果的判断标准 [5] - 联合架构中保留了感知网络的Decoder(如道路结构decoder、障碍物decoder)以及“显示三维向量空间”,以增加模型的可读性、可监督性和问题可追溯性 [5] - 规划侧切割出一个局部视图,用于处理更精细的规划任务 [6] 感知结果与决策规划的融合 - 显式的感知结果(人类独立训练下的感知输出,如道路参与目标状态和道路状态目标)与隐式的BEV特征数据一同被送入决策规划网络 [8] - 决策规划网络对显式三维向量空间进行Encoder编码,然后与隐式BEV数据联合送入Transformer模型 [8] - Transformer模型用于在大量数据间挖掘隐藏关系,寻找最佳轨迹匹配 [8] 系统整体方案 - 公司构建了包含数据闭环的系统解决方案 [9][10] - 系统解决方案涵盖感知系统与计算平台 [11] - 方案采用了全维冗余设计以提升系统可靠性 [13]