Workflow
自动驾驶大模型方案:视觉语言模型VLM工作一览,面向量产和研究~
自动驾驶之心·2025-08-07 07:34

视觉语言模型在自动驾驶中的应用 - 视觉语言模型(VLM)通过跨模态理解能力赋能自动驾驶系统,使其从"看得清"升级为"懂得深",实现场景理解和推理[2][3] - VLM在环境感知方面能识别复杂语义信息,如"行人挥手示意过马路"、"车辆打开双闪可能抛锚"等,提供更贴近人类认知的环境模型[6] - VLM可将视觉场景转化为自然语言描述,增强自动驾驶决策的可解释性,帮助开发调试并提升乘客信任感[6] - 在智能座舱交互中,VLM能准确理解口语化指令如"在下一个便利店靠边停",实现自然语言交互[6] 自动驾驶场景生成技术 - CrashAgent框架利用多模态大语言模型将事故报告转换为结构化场景,生成高质量碰撞数据集支持安全关键场景算法开发[7] - CurricuVLM利用VLM分析智能体行为并动态生成个性化训练场景,在Waymo数据集上导航成功率提升至73.4%,碰撞率降至25.1%[13][15] - TRACE框架从真实车祸报告生成测试场景,在290个场景中识别127个关键场景,重建准确率达77.5%,显著优于基线方法27%的准确率[17][19] - OmniTester利用多模态大语言模型生成高真实性测试场景,在复杂挑战性场景中展现优异可控性[30][32] 自动驾驶边缘案例处理 - 生成OOD场景的框架利用LLM构建分支树结构,在CARLA仿真器中实现多样化边缘场景,引入"OOD偏离度"指标量化场景异常程度[21][22] - WEDGE数据集包含3360张极端天气图像,用于微调检测器后在真实基准上提升4.48 AP,特别在卡车类别表现良好[39][41] - From Dashcam Videos框架将行车记录仪视频自动转换为仿真场景,保持高保真度同时实现分钟级转换效率[26][29] - INSIGHT框架整合语义和视觉表征,在BDD100K数据集上危险预测准确率显著提升,BLEU-4达88.087%[95][97] 自动驾驶评估与基准 - DriveBench基准评估12个主流VLM在19,200帧数据上的可靠性,发现模型常依赖文本线索而非真正视觉理解,存在安全风险[119][124] - CODA-LM是首个自动驾驶极端场景下LVLM自动评估基准,其CODA-VLM模型在区域感知任务上超过GPT-4V达21.42%[133][135] - Reason2Drive数据集包含60万视频-文本对,描述感知-预测-推理链条,Vicuna-7B模型推理指标达0.463[152][154] - OmniDrive数据集通过反事实推理增强3D理解,Omni-Q++模型在nuScenes规划任务上碰撞率降至0.3%[158][162] 自动驾驶决策与规划 - CBR-LLM框架结合案例推理和LLM,在风险场景中生成符合人类行为的机动建议,决策准确性显著提升[44][47] - FutureSightDrive提出时空思维链推理方法,通过生成未来帧预测进行轨迹规划,推动视觉推理发展[49][52] - ThinkDriver模型利用多视角图像生成可解释驾驶决策,在闭环实验中优于其他VLM基线[140][143] - LLM-Augmented-MTR使用0.7%的LLM增强数据即提升运动预测准确性,mAP从0.3432提升至0.3527[144][149]