DriveAction

搜索文档
理想认为VLA语言比视觉对动作准确率影响更大
理想TOP2· 2025-08-16 20:11
论文核心观点 - 理想发布DriveAction基准测试集,旨在评估VLA模型的人类驾驶决策能力,包含2610个驾驶场景和16185对问答数据 [1][3] - 实验表明VLA模型需同时结合视觉和语言输入才能准确预测动作:无视觉输入时准确率下降3.3%,无语言输入下降4.1%,两者均无下降8.0% [3][6] - 这是首个专为VLA设计的动作驱动基准测试集,数据来自量产辅助驾驶汽车的真实驾驶场景 [3] 数据集与技术细节 - DriveAction数据集已开源,包含导航指令、车道属性和动作决策三类问题,例如判断当前车道属性或是否允许转弯 [3][4] - 数据采集基于"智行家"系统,上月下载量达544次 [3] - 测试集设计涵盖视觉(V)、语言(L)、动作(A)三种模态组合的评估模式 [4][5] 模型性能分析 - 综合评估显示所有模型在完整V-L-A模式下准确率最高(如GPT-4.1 mini达91.43%),纯动作模式(A)最低(如Claude 3.5 Sonnet仅80.63%)[5][6] - 推理模型在V-L-A模式下普遍优于非推理模型(如ol模型93.56% vs GPT-4o 88.84%),但在A模式下优势不明显 [5][6] - 特定任务中模型表现分化:GPT-4o在道路标记语言类问题达90.4分,而Claude 3.7 Sonnet在同类任务仅58.2分 [7][8] 稳定性与行业应用 - GPT-4.1 mini和Gemini 2.5 Pro表现最优稳定性,三次重复测试标准差低于0.3 [9] - 该研究为自动驾驶行业提供标准化评估工具,凸显多模态融合对决策准确性的关键作用 [3][6]
自动驾驶端到端VLA落地,算法如何设计?
自动驾驶之心· 2025-06-22 22:09
自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式 视觉-语言-动作(VLA)方法伴随具身智能兴起 相关论文横扫前沿领域 [2] - 主机厂如理想 文远知行 小米 小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作 关注自适应推理 强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成 采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架 集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构 包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程 实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段 覆盖4类非结构化场景 显著提升模型性能 [14][18] - DriveAction基准含16185个QA对 直接关联驾驶操作 支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准 当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展 文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺 多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强 需适配车端实时性要求 [47] - 小米 博世 清华等机构积极布局VLA研发 形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著 均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]