Workflow
Visual-Language-Action (VLA) Model
icon
搜索文档
自动驾驶VLA:OpenDriveVLA、AutoVLA
自动驾驶之心· 2025-08-18 09:32
OpenDriveVLA技术分析 - 核心目标是解决标准VLM在处理动态三维驾驶环境时的"模态鸿沟"问题,通过结构化方式让VLM理解3D世界[23] - 采用分层视觉Token提取方法,将BEV特征提炼为Agent Token、Map Token和Scene Token三种结构化视觉Token[25] - 多阶段训练范式包括特征对齐、指令微调、交互建模和轨迹规划微调四个阶段[25] - 在nuScenes开环规划基准测试上取得SOTA性能,平均L2误差0.33米,碰撞率0.10%[10] - 优势在于3D空间接地能力强,可解释性好,能有效抑制空间幻觉[26] AutoVLA技术分析 - 核心哲学是将驾驶任务完全融入VLM的原生工作方式,从"场景解说员"转变为"驾驶决策者"[26] - 创新性提出物理动作Token化,通过K-Disk聚类算法构建包含2048个离散动作基元的动作代码本[29] - 采用双模式思维与监督微调(SFT)结合组相对策略优化(GRPO)算法进行强化学习微调(RFT)[28][30] - 在nuPlan、Waymo和CARLA等多个基准测试上取得顶级性能[20] - 优势在于端到端整合度高,决策策略可通过RL持续优化,性能上限高[32] 技术对比 - OpenDriveVLA专注于感知-语言对齐,AutoVLA专注于语言-决策一体化[32] - OpenDriveVLA采用分层视觉Token提取,AutoVLA依赖模型自身注意力处理视觉信息[32] - OpenDriveVLA自回归生成文本形式坐标点,AutoVLA生成离散动作Token[32] - OpenDriveVLA采用多阶段监督学习,AutoVLA采用两阶段学习(SFT+RFT)[32] - 未来理想模型可能是两者的结合体,采用OpenDriveVLA的结构化感知前端和AutoVLA的动作Token化强化学习后端[34] 行业影响 - 两篇论文共同推动了VLA在自动驾驶领域的发展,描绘了更智能、更可靠的端到端自动驾驶系统前景[33] - OpenDriveVLA为建造摩天大楼打下坚实的地基,AutoVLA则是在坚实地基之上构建摩天大楼本身[36] - 相关技术涉及大模型、VLA、端到端自动驾驶、数据闭环、BEV感知等30+自动驾驶技术栈[38]