Workflow
复旦最新LMAD:迈向可解释端到端VLM~
自动驾驶之心·2025-08-20 07:32

文章核心观点 - LMAD框架通过多机制协同显著提升自动驾驶视觉语言模型推理性能 解决现有方法在整体场景识别和空间感知方面的不足 [2][3] 现有方法局限性 - 场景理解碎片化 依赖中间结果或简单视觉表征 难以捕捉交通元素间关系 [4] - 空间与运动感知薄弱 定位和运动估计表现不足 导致驾驶任务性能不佳 [4] 框架创新设计 - 引入初步场景交互机制 建模交通参与者初步关系 降低学习复杂度 [6] - 采用任务专用专家结构 通过并行LoRA模块专注感知预测规划等特定任务 [6] - 端到端系统集成 融合先验知识补充空间和运动信息 增强推理能力 [6] 关键模块设计 - PI编码器通过解耦查询和交替注意力机制处理多视图图像 减少冗余跨视图tokens [12][15] - 并行LoRA在FFN块中替换传统LoRA为多个并行分支 每个分支对应不同驾驶任务 [16] - 特征整合通过适配器处理三类特征并对齐语言上下文 拼接为端到端tokens [23] 实验性能表现 - DriveLM基准测试中LLaMA-Adapter准确率提升3.44% GPT得分提升3.89% [20][21] - InternVL2整体指标改善 准确率从77.95%提升至80.38% GPT得分从64.13提升至65.10 [21] - nuScenes-QA测试中整体准确率提升2.57% H0和H1指标分别提升1.99%和3.75% [25][26] - 在BLEU4 ROUGE L CIDEr METEOR等指标上表现最优 BLEU4达54.59 ROUGE L达75.72 [25] 技术实现细节 - 使用DriveLM数据集包含377,956个QA对 nuScenes-QA数据集约460k个QA对 [24] - 训练采用8张A6000 GPU batch size 16训练2个epoch 使用AdamW优化器 [24] - 推理时结合Chain-of-Thought技术按端到端方法逐步输出结果 [22] 组件有效性验证 - 全组件配置最终得分达57.17 显著高于其他配置 [28][29] - 任务导向P-LoRA在各项指标上表现均衡 优于问题导向和分层模式 [28][29] - 感知tokens对行为解释最关键 加入预测和规划tokens后准确性进一步提升 [30][31]