Workflow
视觉语言模型(VLA)
icon
搜索文档
理想认为VLA语言比视觉对动作准确率影响更大
理想TOP2· 2025-08-16 20:11
论文核心观点 - 理想发布DriveAction基准测试集,旨在评估VLA模型的人类驾驶决策能力,包含2610个驾驶场景和16185对问答数据 [1][3] - 实验表明VLA模型需同时结合视觉和语言输入才能准确预测动作:无视觉输入时准确率下降3.3%,无语言输入下降4.1%,两者均无下降8.0% [3][6] - 这是首个专为VLA设计的动作驱动基准测试集,数据来自量产辅助驾驶汽车的真实驾驶场景 [3] 数据集与技术细节 - DriveAction数据集已开源,包含导航指令、车道属性和动作决策三类问题,例如判断当前车道属性或是否允许转弯 [3][4] - 数据采集基于"智行家"系统,上月下载量达544次 [3] - 测试集设计涵盖视觉(V)、语言(L)、动作(A)三种模态组合的评估模式 [4][5] 模型性能分析 - 综合评估显示所有模型在完整V-L-A模式下准确率最高(如GPT-4.1 mini达91.43%),纯动作模式(A)最低(如Claude 3.5 Sonnet仅80.63%)[5][6] - 推理模型在V-L-A模式下普遍优于非推理模型(如ol模型93.56% vs GPT-4o 88.84%),但在A模式下优势不明显 [5][6] - 特定任务中模型表现分化:GPT-4o在道路标记语言类问题达90.4分,而Claude 3.7 Sonnet在同类任务仅58.2分 [7][8] 稳定性与行业应用 - GPT-4.1 mini和Gemini 2.5 Pro表现最优稳定性,三次重复测试标准差低于0.3 [9] - 该研究为自动驾驶行业提供标准化评估工具,凸显多模态融合对决策准确性的关键作用 [3][6]