Workflow
LatentVLA
icon
搜索文档
NAVSIM SOTA!LatentVLA:通过潜在动作预测构建高效自驾VLA(OpenDriveLab&理想)
自动驾驶之心· 2026-01-12 17:20
文章核心观点 - 上海创智学院、OpenDriveLab和理想汽车联合提出了一种名为LatentVLA的新型端到端自动驾驶框架,该框架通过自监督潜在动作预测训练视觉-语言模型,并利用知识蒸馏将其能力迁移至高效的纯视觉网络,旨在解决VLM在自动驾驶中面临的轨迹预测不精确、依赖语言标注和推理效率低下三大挑战,在NAVSIM基准测试中以92.4的PDMS得分创造了新的SOTA,并在nuScenes基准上展示了强大的零样本泛化能力 [2][17][52] 背景与挑战 - **端到端自动驾驶的局限性**:尽管端到端方法能直接从传感器输入映射到轨迹,但其性能受限于训练数据的场景多样性,难以应对真实世界中复杂多变的长尾场景 [4][10] - **视觉-语言模型在自动驾驶中的三大挑战**: 1. **数值不敏感与轨迹不精确**:VLM基于离散语言标记的自回归训练方式不适合连续动作空间,导致输出不稳定,特别是在长时域轨迹规划中精度受损 [4] 2. **数据标注负担与语言偏差**:依赖大规模语言标注(如VQA风格)会引入语言偏差,限制对隐性驾驶知识的捕获,可能导致文本描述与实际驾驶行为不匹配 [5] 3. **计算效率低与认知不对齐**:采用思维链式推理的VLM计算成本高、耗时长,难以满足实时部署要求 [5] 解决方案:LatentVLA框架 - **核心创新**:提出整合VLM优势与传统视觉方法效率和精度的新型框架 [17] - **两大核心技术**: 1. **自监督潜在动作预测**:采用以自车为中心的潜在动作预测作为自监督学习目标来训练VLM,完全无需语言标注,能从无标注轨迹数据中学习丰富的驾驶表征,减轻语言偏差并降低标注负担 [6][21] 2. **知识蒸馏机制**:将训练好的VLM(教师模型)学到的表征和推理能力蒸馏到规划Transformer(学生模型)中,再将其特征与传统端到端方法的特征融合,使学生模型继承VLM泛化能力的同时,保持传统方法的计算效率和实时性能 [6][21][35] - **潜在动作学习与解耦**: - 通过编码器-解码器架构和VQ-VAE,从视觉观测中学习并离散化连续动作,生成量化的潜在动作表征 [23] - 提出潜在动作解耦,通过两阶段过程分离自车运动与环境变化,使模型能更准确地捕获驾驶意图,提升规划质量 [23][25] 实验结果与性能 - **NAVSIM基准测试**: - LatentVLA(iPad)版本获得92.4的PDMS得分,刷新SOTA,比原生iPad方法(91.7)提高了0.7分 [2][41][42] - LatentVLA(TransFuser)版本将得分从84.0提升至86.6 [41][42] - 知识蒸馏版本性能接近完整模型,Distilled LatentVLA(iPad)得分为92.1,性能保持率达99.7%,同时比原生iPad提高0.4分 [41] - **nuScenes零样本泛化能力**: - LatentVLA(iPad)在nuScenes开环规划中平均L2误差为0.33米,在顶级VLM方法中排名靠前 [44][46] - 在关键短期时间域表现优异,1秒时L2误差为0.13米,2秒时为0.28米,匹配或超越了部分基线方法 [44] - 尽管训练数据规模和多样性显著少于基线方法(如EMMA+、ImpromptuVLA),但仍展现出强大的跨数据集泛化能力 [44] - **推理速度提升**: - 直接集成VLA模型推理延迟高(约790ms),帧率低于1.3 FPS,无法满足实时要求 [51] - 经过知识蒸馏后,推理延迟降低约3.8倍(至约210ms),帧率提升近3.7倍(至约4.8 FPS),显著加速 [51] - **定性分析优势**:在环岛、交叉路口等复杂场景中,LatentVLA能生成准确、平滑且安全的轨迹,而基线方法可能出现方向误判或轨迹偏离可行驶区域的情况 [48] 消融实验验证 - **关键组件有效性**:系统性地整合视觉嵌入、动作嵌入以及将语言条件改为轨迹条件,均能持续提升模型性能,最终LatentVLA(TransFuser)的PDMS得分从基线84.0提升至86.6 [50] - **训练数据影响**:使用更大规模的OpenScene数据集进行潜在动作模型训练,相比仅使用navtrain数据集能带来进一步的性能提升 [50]