Workflow
小鹏最新!NavigScene:全局导航实现超视距自动驾驶VLA(ACMMM'25)

自动驾驶技术突破 - 小鹏汽车团队提出NavigScene解决方案,通过连接局部感知和全局导航信息弥补自动驾驶系统关键差距,实现超视距推理能力[2] - NavigScene包含两个子集:NavigScene-nuScenes和NavigScene-NAVSIM,通过自然语言指令模拟人类驾驶环境,整合Google Maps等导航工具的BVR(超视距)信息[9][14] - 系统采用三种创新方法:导航引导推理(NSFT)、导航引导偏好优化(NPO)和导航引导视觉-语言-动作模型(NVLA),显著提升感知、预测和规划任务性能[10][12] 技术实现细节 - 视觉生成模块利用Google Maps API合成导航视频,通过Direction API获取路线、Static Map API采集连续图像,Distance Matrix API计算行驶数据[16] - 文本生成采用三重相似度指标(交叉路口相似度Sinter、距离相似度Sdist、词汇相似度Sword)选择最优导航描述,权重分配体现方向准确性优先原则[18] - NVLA模型通过可学习MLP解决VLM高维输出(如LlamaAdapter的32,000维)与BEV特征(典型256维)的维度不匹配问题,实现特征融合[28][29] 性能验证数据 - 问答任务中,整合NavigScene的VLMs在BLEU-4、METEOR等指标全面提升,Qwen2.5-7B表现最佳(BLEU-4从51.65提升至55.13)[32][47] - 端到端驾驶测试显示,SparseDrive模型整合Qwen2.5-7B后检测mAP提升0.04,闭环规划中DAC指标达96%,优于基线系统84.2%[40][41] - 跨城市泛化实验证明,NPO技术使波士顿→新加坡场景的平均碰撞率从26.83%降至22.55%,显著增强陌生环境适应能力[55] 行业应用前景 - 技术方案已覆盖感知(3D检测、BEV)、预测(轨迹分析)、规划(闭环控制)全链条,形成30+技术栈的完整学习体系[65] - VLA/VLM算法工程师岗位需求激增,顶尖企业为博士人才提供90-120K薪资,反映技术商业化加速[64] - 行业社区规模达4000人,涵盖300+企业与科研机构,显示技术生态快速扩张[65]