Momenta智驾方案解析

Momenta无地图自动驾驶解决方案概述 - 公司提出了一种不依赖高精地图的自动驾驶解决方案，通过多传感器融合与实时环境感知实现导航[4] - 该方案通过数据采集、感知处理、定位计算、路径规划与控制等步骤实现完整自动驾驶功能[4] - 系统使用多摄像头、激光雷达、雷达、IMU、轮速传感器和GNSS接收器进行360度环境感知，其中多摄像头提供视野，激光雷达和雷达提供用于构建3D环境模型的点云数据[5] - 感知模块运用计算机视觉和深度学习算法进行物体检测、分类和跟踪，并融合多传感器数据生成实时更新的局部地图，包含可行驶区域、车道线和障碍物位置[5] - 定位模块融合IMU、轮速和GNSS数据，通过SLAM等算法计算车辆在"Boot Frame"中的精确姿态，在无地图模式下主要依赖传感器融合和实时环境特征匹配[5] - 规划模块根据导航系统提供的全局路线和局部地图生成详细行驶轨迹，并考虑交通规则、障碍物避让和乘客舒适度，其所需的SD Map仅包含基本道路拓扑信息，降低了对高精度细节数据的依赖[5] DDLD（数据驱动地标检测）系统 - DDLD是一种基于数据驱动方法的地标检测系统，用于自动驾驶中道路元素的自动识别与定位[8] - 系统采用以自车为中心的感知框架，将自车作为坐标系原点来检测周围环境[9] - 系统分层检测三类主要地标：车道中心线、车道边界和道路边界，同时还能检测停止线、人行横道等其他道路标记[10] - 检测输出为一系列的点集或贝塞尔曲线参数，直接描述地标的几何形状[29] - 整个系统构成一个庞大的数据飞轮和自动化流水线，旨在低成本、高效率地获取海量高精度标注数据[14] DDLD系统工作流程 - 第一阶段为DDLD地图生产（初始地图构建）：派遣专业测绘车进行多次数据采集，采集数据包括多摄像头视频、高精度轨迹和语义点云[18] - 通过多行程重建将同一路段多次采集的数据进行融合，构建更完整精确的环境模型[18] - 在重建的融合数据上运行训练好的DDLD检测模型，离线检测所有地标，以追求更高精度[18] - 经过人工质检后，生成带有时空信息的高精度"DDLD地图"作为系统产出的真值[15] - 第二阶段为自动标注流水线（数据飞轮循环）：量产车在路测和日常行驶中不断收集新的行程数据[17] - 系统判断新行驶路径是否已被现有DDLD地图覆盖，这是一个关键决策点[25] - 若路径已被覆盖，系统执行高精度重定位，以厘米级精度确定车辆在地图中的位置，并将地图中存储的地标矢量反向投影到新采集的数据中，从而自动生成完美标注，无需人工干预[25] - 若路径未被覆盖，数据则被送回第一阶段的DDLD地图生产流水线，以扩展地图覆盖范围[19] DDLD模型架构 - 模型架构包括特征提取（编码阶段）、查询与解码（解码阶段）以及预测头（输出阶段）[22][23][28] - 特征提取阶段包含图像编码器和可选的地图编码器，图像编码器使用主干网络或视觉Transformer从原始图像中提取视觉特征，地图编码器允许模型融合上下文先验知识[26] - 图像特征和可选的地图特征会被融合，形成统一的"Map Feature"作为解码器的上下文信息[22] - 解码阶段使用一组可学习的查询，而非传统的锚框或非极大值抑制[23] - 模型预设三组不同的查询：车道图查询、车道边界查询和道路边界查询，用于预测不同类别的结构[30] - 通过Transformer解码器层的交叉注意力机制，每个查询从特征图中收集相关信息，并经过迭代优化[30] - 优化后的查询被送入对应的预测头（车道图头、车道边界头、道路边界头），解码为具体的结构化输出[30] 深度学习规划（DLP）方案 - 针对传统规划方法（如基于优化的方法易陷入局部最小值，基于搜索的方法计算复杂度高）的局限性，公司提出了深度学习规划作为更高效的解决方案[32][33] - 规划被描述为一个高维动作空间中的时空联合搜索问题，传统规划器因在线计算资源有限而不得不牺牲最优性[35] - DLP系统的输入包括五类关键信息：全局路径信息、自车历史轨迹信息与用户设置、历史交通灯信息、静态地标（车道中心线/边界/道路边界）以及动态目标的历史轨迹信息[36][38] - 系统的输出包括两部分：为自车规划的轨迹点、预测的其他交通参与者轨迹点，以及高级驾驶行为决策[36][37] - 驾驶行为决策被建模为分类问题，使用softmax分类输出车道选择得分，使用sigmoid分类输出绕行得分等二元决策置信度[38] - DLP模型架构包含多模态感知信息整合输入层、Transformer编码器进行多模态特征编码、以及Transformer解码器进行决策与轨迹生成[41] - 模型通过生成式预训练、模仿学习和强化学习相结合的方式进行训练[47] 数据闭环与管道 - 公司构建了强大的自动化数据生产流水线来确保深度学习模型的数据质量[44] - 针对数据不平衡问题，采用细粒度挖掘数据管道，从海量数据中主动挖掘稀有但重要的场景（如紧急切入、行人突然闯入）[45] - 针对仿真中的数据分布漂移问题，采用仿真事件生成数据管道，当模型在仿真中犯错时自动生成带有正确标签的新数据以加入训练集[45] - 针对冲突数据（标注错误或矛盾），采用坏数据过滤数据管道，使用规则或噪声检测模型识别并过滤低质量数据[45] - 针对数据匮乏问题，采用仿真事件生成数据管道，利用仿真器大规模生成现实世界中罕见的长尾场景数据[45] - 基础数据质量过滤管道执行最基本的清洗，过滤掉格式错误、数据缺失或明显超出物理极限的无效数据[48] - 细粒度挖掘管道根据场景复杂性、罕见性或模型不确定性，从日志数据中筛选高价值片段供模型重点学习[49] - 坏数据过滤管道识别并移除内部不一致的数据样本以保证数据集纯净度[54] - 仿真真值生成管道在仿真中使用更强大的规划器或专家规则生成最优轨迹作为场景的真值标签[54] - 仿真事件生成管道通过调整参数或使用对抗学习技术，主动生成能暴露当前规划模型弱点的边缘案例场景[54] Cut-In场景效果验证 - 选择"Cut-In"（其他车辆切入）场景进行重点测试，因其高动态性和决策冲突能有效验证深度学习规划方案解决传统框架痛点的能力[53] - 评估指标分为安全指标与舒适指标两大类[53] - 安全指标包括"每次干预的计数"（平均每次人类接管前模型成功处理Cut-In的次数）和"成功率"（模型未发生碰撞且无需接管的比例）[55] - 舒适指标包括"每次问题的计数"（平均每次出现舒适性问题的间隔）和"成功率"（未引发不舒适急刹等行为的比例）[59] - 构建了三个针对性数据集：包含常规车辆切入场景的CutIn数据集、包含各种卡车/挂车切入场景的卡车/挂车CutIn数据集、以及包含与Cut-In相似但无需强烈制动事件的误刹数据集[59] - 实验结果显示，在常规切入数据集上，DLP方法的"每次干预的计数"为33.3，成功率为97%，相比传统方法（9.9 / 90%）有显著提升[58] - 在卡车/挂车切入数据集上，DLP方法的"每次干预的计数"为25.0，成功率为96%，相比传统方法（7.0 / 86%）提升更为明显[61] - 在误刹数据集上，DLP方法的"每次问题的计数"为4.2，成功率为76%，相比传统方法（2.0 / 50%）在舒适性上实现了巨大进步[61] - DLP在安全性上可靠性大幅提升，"每次干预的计数"提升了约2.3到3.4倍，在更具挑战性的卡车/挂车切入场景中成功率提升10个百分点[65] - DLP在舒适性上实现了质的飞跃，成功率从50%提升至76%，"每次问题的计数"翻倍，减少了约一半的不必要急刹车，驾驶行为更拟人化[65] DDPF（数据驱动位姿融合）定位技术 - DDPF是自动驾驶定位模块的核心组成部分，属于底层状态估计，负责输出车辆短时间内的精确运动变化和相对于地面的姿态[66] - 输入来自车辆底盘和惯性传感器的原始时序信号，包括IMU（提供三轴加速度和角速度）、轮速脉冲、转向角和电机速度[69] - 输出包括相对位姿变化（旋转矩阵变化ΔR和平移向量变化Δt）以及绝对地面姿态角（滚转角和俯仰角）[69] - 作为数据驱动方法，DDPF的优势在于能从海量数据中学习真实的传感器误差模型、处理非线性与标定误差、具有更强鲁棒性，并进行端到端优化[69] - DDPF旨在解决传感器固有缺陷（如IMU噪声与漂移、轮速传感器在极低速下失效）、复杂运动学建模困难（如车辆侧滑、停车大侧滑角）以及工程部署难题（为不同传感器组合手动调参）[70][74] - 通过学习真实运动响应，DDPF能处理包括大侧滑角在内的复杂车辆动态，并实现一套模型适配多套传感器，减少部署调参工作量[75] DDPF网络架构与评估 - 网络采用多传感器并行编码设计，为陀螺仪、加速度计、轮速、车轮角度等信号设计独立的编码器进行特征提取[76][79] - 特征融合阶段需要解决不同采样率信号的时间对齐问题，并学习不同模态特征间的互补关系[77] - 融合后的特征通过解码网络处理，最终以回归形式输出6自由度位姿（位置和姿态）[77] - 架构设计具有模态专用性、端到端学习、能处理非线性与依赖关系以及适应复杂运动学等优势[79] - 使用相对位置误差（RPE）评估定位性能，通过比较真值轨迹和模型轨迹在等长段上的相对位移向量来揭示系统在动态运动中的漂移或尺度偏差[82][86] 自动驾驶技术演进路径 - Algorithm 2.0阶段为模块化数据驱动感知，感知任务被拆分为独立的数据驱动模块，规划则基于规则[90][92] - Algorithm 3.0阶段为感知序列任务整合，将与时序相关的感知任务（融合、跟踪、预测）整合成统一的端到端数据驱动模型，规划开始向数据驱动演进[90][92] - Algorithm 4.0阶段为全感知任务整合，将所有感知任务整合进一个统一的4D感知模型，规划实现全数据驱动并能处理复杂认知任务[90][92] - Algorithm 5.0阶段为感知与规划大一统，将感知与规划整合进单一的数据驱动模型，实现从原始传感器数据直接输出驾驶动作或轨迹的端到端系统[90][92] - 技术路径的关键转变包括：从任务独立模块逐步整合为端到端系统、从规则驱动转变为数据驱动、从输出环境感知表征演变为直接输出行动决策[97] - 随着系统整合，评估重点从早期的底层感知指标（如RPE）转向更高层的规划质量（如舒适性、安全性）[97]