DriveBench：VLM在自动驾驶中真的可靠吗？（ICCV'25）

研究背景与动机 - 视觉语言模型（VLM）在自动驾驶领域的应用兴趣激增，但缺乏对其可靠性和可解释性的系统验证 [3] - 当前VLM能否为驾驶决策提供基于视觉的可靠解释仍属未经验证的假设 [3] DriveBench基准数据集 - 推出DriveBench基准数据集，旨在评估VLM在17种设置下的可靠性 [3] - 数据集包含19,200帧图像、20,498个问答对和三种问题类型 [3] - 覆盖四大核心驾驶任务：感知、预测、规划和行为 [3][7] - 引入15种OoD（Out-of-Distribution）类型以系统性测试VLM在复杂场景中的可靠性 [3][7] - 评估涵盖12个主流VLM模型 [3] 研究内容与结构 - 研究从可靠性、数据和指标三个角度对VLM在自动驾驶中的适用性进行实证分析 [5] - 分享内容包含VLM概述、可靠性基准评估、分析方法和未来应用前景 [9] 技术交流活动 - 加州大学尔湾分校博士生谢少远将于8月8日11:00-12:00通过直播分享DriveBench研究成果 [7][9] - 完整技术细节及深度解析内容已发布于自动驾驶之心知识星球平台 [11]