DriveAction基准

搜索文档
理想最新DriveAction:探索VLA模型中类人驾驶决策的基准~
自动驾驶之心· 2025-06-21 21:15
研究背景与问题提出 - 自动驾驶技术发展中,Vision-Language-Action(VLA)模型凭借多模态处理能力带来新机遇,但现有基准数据集在场景多样性、动作标注可靠性和评估协议一致性方面存在不足,制约了VLA模型的发展和应用 [2] - 现有基准数据集主要问题包括:场景多样性不足(来源单一,忽略复杂场景如道路合并、行人交互等)、动作标注不真实(缺乏实时驾驶意图反映)、评估框架不完善(未体现目标驱动决策模式) [3] DriveAction基准的核心创新 - 提出首个专为VLA模型设计的动作驱动基准,三大创新包括:用户贡献的广泛覆盖驾驶场景、与人类驾驶偏好一致的真实标注、以动作为根的树状结构评估框架 [3] - 数据集覆盖中国148个城市及所有量产车型记录,涵盖7大关键场景类别(如匝道合并、导航变道、绕行弱势道路使用者等),每个场景关联多种细粒度动作 [5] - 动作标签直接来源于用户实时驾驶操作,离散化为高级动作并经过多轮人工验证,确保可靠性和有效性 [6] 实验设计与关键发现 - 评估12个VLM模型,分为非推理模型(如GPT-4o、Claude 3.5 Sonnet)和推理模型(如o1、Gemini 2.5 Pro),通过VLMEvalKit实现性能测量 [11] - 全流程模式(V-L-A)准确率最高,无信息模式(A)最低:移除视觉输入准确率下降3.3%,移除语言输入下降4.1%,两者均移除下降8.0% [14] - 推理模型在复杂场景下优于非推理模型(如o1和o3在V-L-A模式下准确率超92%),但无信息模式下部分非推理模型表现更优 [14] - 特定任务评估显示:模型在动态/静态障碍物任务表现较好,导航任务得分较低(车道定位能力有限),交通灯任务准确率持续偏低 [16][17] DriveAction的意义与价值 - 为学术界提供更全面、真实的评估工具,推动VLA模型研究发展,同时支持工业界识别模型瓶颈并优化系统 [20] - 通过促进学术界与工业界在一致评估标准下合作,加速自动驾驶技术向更安全、智能的方向发展 [20]