Workflow
NavigScene
icon
搜索文档
自动驾驶超视距VLA如何实现?小鹏NavigScene另辟蹊径!
自动驾驶之心· 2025-09-05 07:33
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>直播和内容获取转到 → 自动驾驶之心知识星球 点击按钮预约直播 当前的自动驾驶系统虽能"看清"周围,却难以像人类一样"预见"远方的道路与决策。局部感知与全局导航的鸿沟,已成 为制约其发展的关键瓶颈。 我们非常荣幸地邀请到 NavigScene 论文的第一作者—— Qucheng Peng ,为我们深度解析他们团队如何开创性地弥合这一 差距,让自动驾驶系统真正拥有"高瞻远瞩"的导航思维。 自动驾驶系统在基于局部视觉信息的问答(Q&A)、感知、预测和规划方面已取得显著进展,然而,它们在融入人类驾 驶员日常利用的更广泛的导航上下文信息方面仍存在困难。本文通过提出 NavigScene 来解决局部传感器数据与全局导航 信息之间的这一关键差距。 NavigScene 是一个辅助性的、由导航引导的自然语言数据集,它在自动驾驶系统内部仿真了一个类人化的驾驶环境。此 外,本文还开发了三种互补的范式来利用 NavigScene: (1) 导航引导推理 (Navigation-guided Reasoning):通过将导航上 ...
小鹏超视距自动驾驶VLA是如何实现的?
自动驾驶之心· 2025-08-26 07:34
核心观点 - 小鹏汽车团队提出NavigScene数据集和三种方法 连接局部感知和全局导航信息 实现超视距自动驾驶能力[2][3] - 该方法显著提升感知、预测、规划和问答任务性能 增强对陌生场景的泛化能力[3][10] - 技术突破体现在将导航指令(如转向指令、距离信息)与多视角传感器数据融合 模拟人类驾驶员使用导航工具的行为模式[8][9] 数据集构建 - NavigScene基于nuScenes和NAVSIM数据集构建 包含NavigScene-nuScenes和NavigScene-NAVSIM两个子集[9][14] - 通过Google Maps API生成导航视频 使用方向API获取路线、静态地图API获取连续图像、距离矩阵API估算距离和时间[16] - 采用多指标候选选择策略:交叉路口相似度(Sinter)、距离值相似度(Sdist)和词汇相似度(Sword) 权重设置η1>η2>η3确保方向准确性优先[18][19] 技术方法 - 导航引导推理(NSFT):在VLM提示中加入导航指令 使模型同时处理局部视觉线索和全局导航背景[20][23] - 导航引导偏好优化(NPO):扩展DPO方法 通过辅助文本摘要任务建立详细答案与摘要版本间的偏好关系 增强BVR推理能力[24][25] - 导航引导视觉-语言-动作模型(NVLA):通过特征融合MLP将VLM输出与BEV特征维度对齐(从32,000维压缩至256维) 集成到端到端驾驶框架[27] 性能提升 - 在DriveLM评估中:Llama-Adapter的BLEU-4从50.68提升至54.25 METEOR从33.75提升至37.62 ROUGE-L从64.59提升至67.66[30] - 在NuInstruct评估中:感知任务最近物体识别(Clo)从20.4提升至32.2 规划任务从25.7提升至31.2[34] - 端到端驾驶任务:VAD模型检测mAP从0.27提升至0.36 SparseDrive模型mAP从0.42提升至0.46[37] 泛化能力 - 跨城市泛化测试:波士顿→新加坡任务中 VAD+Qwen2.5-7B+NPO使平均L2距离从0.86米降至0.70米 碰撞率从26.83%降至22.55%[51] - 新加坡→波士顿任务中 相同配置使平均L2距离从0.63米降至0.61米 碰撞率从20.44%降至18.46%[51] - NPO技术显著提升系统在不同交通模式和基础设施下的适应能力[52] 行业应用 - 端到端自动驾驶课程涵盖大语言模型、BEV、扩散模型、强化学习等技术模块[57] - 岗位需求显示:VLA/VLM算法专家薪资达40-70K·15薪 量化部署工程师达40-60K·15薪 博士应届生薪资达90-120K·16薪[60] - 行业社区规模近4000人 覆盖300+企业与科研机构 涉及30+技术方向包括端到端自动驾驶、大模型、仿真测试等[66]
一文尽览!近一年自动驾驶VLA优秀工作汇总~
自动驾驶之心· 2025-07-15 20:30
自动驾驶VLA技术进展 - 端到端自动驾驶成为主流范式,视觉-语言-动作(VLA)方法在学术界和工业界快速落地[2] - 理想、文远知行、小米、小鹏等主机厂正在大力尝试VLA技术的量产应用[2] - 2025年学术界和工业界涌现大量优秀工作,重点关注VLA落地可行性、扩散模型轨迹可靠性等问题[2] NavigScene技术突破 - 小鹏汽车提出NavigScene,解决局部传感器数据与全局导航信息的关键差距[2] - 开发三种互补方法:导航引导推理、导航引导偏好优化、导航引导VLA模型[2] - 实验显示显著提升感知、预测、规划和问答任务性能,实现超视距推理能力[2][6] - 在NuInstruct基准测试中,Qwen2.5-7B模型表现最佳,多项指标提升明显[5] AutoVLA创新框架 - UCLA提出AutoVLA,统一推理和动作生成的自回归模型[7] - 采用SFT+GRPO两阶段训练,在NAVSIM取得92.12 PDMS指标[9] - 在nuPlan、nuScenes等多个基准测试中展现竞争优势[8] - 实现自适应推理能力,可根据场景复杂度调整思维模式[12] ReCogDrive三阶段训练 - 华科与小米合作提出三阶段训练框架[13] - 收集2.3M高质量QA数据,通过预训练+模仿学习+强化学习流程[14] - 在NAVSIM基准达到89.6 PDMS,创下新SOTA记录[16] - 比之前最佳方法提升5.6 PDMS[16] 数据集与基准建设 - 清华AIR与博世发布Impromptu VLA数据集,包含80K+精选视频片段[17] - 理想汽车推出DriveAction基准,包含16,185个QA对,覆盖2610个驾驶场景[31] - 实验显示视觉和语言输入缺失会导致动作预测准确率下降3.3%-8.0%[31] - 基准建设被认为是行业未来重点发展方向[50] 技术趋势与挑战 - 思维链、空间理解成为标配技术,但车端必要性存疑[50] - 时序处理研究不足,与实际车端需求存在差距[50] - 轨迹输出形式分文本自回归和扩散模型两大路线[50] - 行业缺乏大规模自动驾驶预训练基座模型[50] - NAVSIM指标已逼近人类专家水平,验证技术可行性[50]
小鹏最新!NavigScene:全局导航实现超视距自动驾驶VLA(ACMMM'25)
自动驾驶之心· 2025-07-14 19:30
自动驾驶技术突破 - 小鹏汽车团队提出NavigScene解决方案,通过连接局部感知和全局导航信息弥补自动驾驶系统关键差距,实现超视距推理能力[2] - NavigScene包含两个子集:NavigScene-nuScenes和NavigScene-NAVSIM,通过自然语言指令模拟人类驾驶环境,整合Google Maps等导航工具的BVR(超视距)信息[9][14] - 系统采用三种创新方法:导航引导推理(NSFT)、导航引导偏好优化(NPO)和导航引导视觉-语言-动作模型(NVLA),显著提升感知、预测和规划任务性能[10][12] 技术实现细节 - 视觉生成模块利用Google Maps API合成导航视频,通过Direction API获取路线、Static Map API采集连续图像,Distance Matrix API计算行驶数据[16] - 文本生成采用三重相似度指标(交叉路口相似度Sinter、距离相似度Sdist、词汇相似度Sword)选择最优导航描述,权重分配体现方向准确性优先原则[18] - NVLA模型通过可学习MLP解决VLM高维输出(如LlamaAdapter的32,000维)与BEV特征(典型256维)的维度不匹配问题,实现特征融合[28][29] 性能验证数据 - 问答任务中,整合NavigScene的VLMs在BLEU-4、METEOR等指标全面提升,Qwen2.5-7B表现最佳(BLEU-4从51.65提升至55.13)[32][47] - 端到端驾驶测试显示,SparseDrive模型整合Qwen2.5-7B后检测mAP提升0.04,闭环规划中DAC指标达96%,优于基线系统84.2%[40][41] - 跨城市泛化实验证明,NPO技术使波士顿→新加坡场景的平均碰撞率从26.83%降至22.55%,显著增强陌生环境适应能力[55] 行业应用前景 - 技术方案已覆盖感知(3D检测、BEV)、预测(轨迹分析)、规划(闭环控制)全链条,形成30+技术栈的完整学习体系[65] - VLA/VLM算法工程师岗位需求激增,顶尖企业为博士人才提供90-120K薪资,反映技术商业化加速[64] - 行业社区规模达4000人,涵盖300+企业与科研机构,显示技术生态快速扩张[65]