超视距自动驾驶

搜索文档
小鹏超视距自动驾驶VLA是如何实现的?
自动驾驶之心· 2025-08-26 07:34
核心观点 - 小鹏汽车团队提出NavigScene数据集和三种方法 连接局部感知和全局导航信息 实现超视距自动驾驶能力[2][3] - 该方法显著提升感知、预测、规划和问答任务性能 增强对陌生场景的泛化能力[3][10] - 技术突破体现在将导航指令(如转向指令、距离信息)与多视角传感器数据融合 模拟人类驾驶员使用导航工具的行为模式[8][9] 数据集构建 - NavigScene基于nuScenes和NAVSIM数据集构建 包含NavigScene-nuScenes和NavigScene-NAVSIM两个子集[9][14] - 通过Google Maps API生成导航视频 使用方向API获取路线、静态地图API获取连续图像、距离矩阵API估算距离和时间[16] - 采用多指标候选选择策略:交叉路口相似度(Sinter)、距离值相似度(Sdist)和词汇相似度(Sword) 权重设置η1>η2>η3确保方向准确性优先[18][19] 技术方法 - 导航引导推理(NSFT):在VLM提示中加入导航指令 使模型同时处理局部视觉线索和全局导航背景[20][23] - 导航引导偏好优化(NPO):扩展DPO方法 通过辅助文本摘要任务建立详细答案与摘要版本间的偏好关系 增强BVR推理能力[24][25] - 导航引导视觉-语言-动作模型(NVLA):通过特征融合MLP将VLM输出与BEV特征维度对齐(从32,000维压缩至256维) 集成到端到端驾驶框架[27] 性能提升 - 在DriveLM评估中:Llama-Adapter的BLEU-4从50.68提升至54.25 METEOR从33.75提升至37.62 ROUGE-L从64.59提升至67.66[30] - 在NuInstruct评估中:感知任务最近物体识别(Clo)从20.4提升至32.2 规划任务从25.7提升至31.2[34] - 端到端驾驶任务:VAD模型检测mAP从0.27提升至0.36 SparseDrive模型mAP从0.42提升至0.46[37] 泛化能力 - 跨城市泛化测试:波士顿→新加坡任务中 VAD+Qwen2.5-7B+NPO使平均L2距离从0.86米降至0.70米 碰撞率从26.83%降至22.55%[51] - 新加坡→波士顿任务中 相同配置使平均L2距离从0.63米降至0.61米 碰撞率从20.44%降至18.46%[51] - NPO技术显著提升系统在不同交通模式和基础设施下的适应能力[52] 行业应用 - 端到端自动驾驶课程涵盖大语言模型、BEV、扩散模型、强化学习等技术模块[57] - 岗位需求显示:VLA/VLM算法专家薪资达40-70K·15薪 量化部署工程师达40-60K·15薪 博士应届生薪资达90-120K·16薪[60] - 行业社区规模近4000人 覆盖300+企业与科研机构 涉及30+技术方向包括端到端自动驾驶、大模型、仿真测试等[66]