小鹏最新！NavigScene：全局导航实现超视距自动驾驶VLA（ACMMM'25）

自动驾驶技术突破 - 小鹏汽车团队提出NavigScene解决方案，通过连接局部感知和全局导航信息弥补自动驾驶系统关键差距，实现超视距推理能力[2] - NavigScene包含两个子集：NavigScene-nuScenes和NavigScene-NAVSIM，通过自然语言指令模拟人类驾驶环境，整合Google Maps等导航工具的BVR（超视距）信息[9][14] - 系统采用三种创新方法：导航引导推理（NSFT）、导航引导偏好优化（NPO）和导航引导视觉-语言-动作模型（NVLA），显著提升感知、预测和规划任务性能[10][12] 技术实现细节 - 视觉生成模块利用Google Maps API合成导航视频，通过Direction API获取路线、Static Map API采集连续图像，Distance Matrix API计算行驶数据[16] - 文本生成采用三重相似度指标（交叉路口相似度Sinter、距离相似度Sdist、词汇相似度Sword）选择最优导航描述，权重分配体现方向准确性优先原则[18] - NVLA模型通过可学习MLP解决VLM高维输出（如LlamaAdapter的32,000维）与BEV特征（典型256维）的维度不匹配问题，实现特征融合[28][29] 性能验证数据 - 问答任务中，整合NavigScene的VLMs在BLEU-4、METEOR等指标全面提升，Qwen2.5-7B表现最佳（BLEU-4从51.65提升至55.13）[32][47] - 端到端驾驶测试显示，SparseDrive模型整合Qwen2.5-7B后检测mAP提升0.04，闭环规划中DAC指标达96%，优于基线系统84.2%[40][41] - 跨城市泛化实验证明，NPO技术使波士顿→新加坡场景的平均碰撞率从26.83%降至22.55%，显著增强陌生环境适应能力[55] 行业应用前景 - 技术方案已覆盖感知（3D检测、BEV）、预测（轨迹分析）、规划（闭环控制）全链条，形成30+技术栈的完整学习体系[65] - VLA/VLM算法工程师岗位需求激增，顶尖企业为博士人才提供90-120K薪资，反映技术商业化加速[64] - 行业社区规模达4000人，涵盖300+企业与科研机构，显示技术生态快速扩张[65]