Workflow
闭环评估
icon
搜索文档
快慢双系统评测!Bench2ADVLM:专为自动驾驶VLM设计(南洋理工)
自动驾驶之心· 2025-08-08 07:32
视觉-语言模型在自动驾驶中的应用 - 视觉-语言模型(VLMs)成为自动驾驶领域的新范式,因其强大的泛化能力和可解释性受到关注 [3][4] - 当前基于VLM的自动驾驶系统(ADVLMs)评估主要局限于开环设置,无法反映真实交互行为 [3][4] - BENCH2ADVLM首次提出闭环评估框架,通过双系统架构实现仿真与物理平台的实时交互测试 [3][6] BENCH2ADVLM框架设计 - 采用双系统适应架构:快系统(目标ADVLMs)生成高级驾驶命令,慢系统(通用VLMs)转换为可执行控制动作 [14][16][17] - 物理控制抽象层将中级动作映射到真实车辆执行信号,支持Jetbot和LIMO平台的硬件在环测试 [19][20] - 自反性场景生成模块基于220条标准路线自动创建威胁场景,针对性暴露模型缺陷 [14][22][24] 实验验证与性能分析 - 测试四种主流ADVLMs:OmniDrive表现最优(成功率12.99%,驾驶分数43.75),其余模型闭环性能有限 [25][26] - LLaMA-3-8B与LLaVA-1.5-13B解析模型各具优势:LLaMA侧重成功率(10.45 vs 5.00),LLaVA提升驾驶分数(42.06 vs 38.79) [26][28] - 真实世界测试中,OmniDrive路线完成率达82%(Jetbot)和86%(LIMO),但整体性能较仿真下降26.1% [31][32][34] 技术改进方向 - 细粒度控制改进使DriveLM成功率从9.09%提升至12.52%,验证控制信号优化的必要性 [35] - 混合模式切换策略结合LLaMA与LLaVA优势,同步提升成功率(9.23)和效率(131.29) [36] - 当前局限包括真实场景复杂度不足(仅测试小型车辆)和缺乏多智能体交互评估 [38] 行业技术发展趋势 - 行业正从模块化流水线转向端到端系统,并进一步探索视觉-语言模型的集成 [4] - 闭环评估成为新需求,需解决语义决策与物理执行的接口问题 [5][6] - 轻量化设计(如EM-VLM4AD)与鲁棒性(如OmniDrive)是ADVLMs两大发展方向 [26][32]