Workflow
小米提出DriveMRP:合成难例数据+视觉提示事故识别率飙至88%!

自动驾驶技术研究 核心观点 - 提出DriveMRP框架,通过合成高风险运动数据(DriveMRP-10K)和视觉提示方案,显著提升视觉语言模型(VLM)在自动驾驶场景中的风险预测能力,事故识别准确率从27%提升至88% [1][7][8] - 创新性地将运动路点投影为视觉表示,结合BEV全局上下文和链条推理机制,解决传统VLM在模态差距和可解释性上的局限 [6][13] 现有方法局限 - 规则基方法依赖外部世界模型和预定义规则,对感知误差敏感且泛化性差 [2] - VLM基方法直接输入轨迹坐标文本,因模态差距导致空间关系理解不足 [4] 创新方案 数据集构建 - DriveMRP-10K包含10,000个高风险场景,通过多项式模拟生成三类风险轨迹(ego车辆行为/车辆交互/环境约束),结合GPT-4o生成多模态标注数据 [5] - 采用四阶段流程:高风险轨迹合成→自动标注→人工质检→文本生成,确保数据质量 [5] 模型架构 - DriveMRP-Agent以BEV布局、场景图像和运动路点为输入,通过LoRA微调Qwen2.5VL-7B模型 [6] - 关键组件:视觉提示方案(解决模态差距)、链条推理机制(场景理解→运动分析→风险预测)、CoT训练策略 [6] 性能表现 基准测试 - 在DriveMRP-10K上,ROUGE-1-F1达69.08,风险预测准确率88.03%(基线27.13%),F1分数89.12 [7][8] - 真实世界数据零样本评估中,准确率从29.42%提升至68.50% [9] 数据集有效性 - 微调后Llava-1.5-7B的F1分数从0.85提升至29.99,Qwen2.5-VL-7B的F1达89.12 [11] 组件分析 - 完整模型(视觉提示+链条推理+BEV)性能最优,F1分数89.12;移除BEV后降至83.47 [13] 技术应用 - 方案可增强现有VLM的"即插即用"能力,适用于端到端自动驾驶、BEV感知、轨迹预测等技术方向 [15][17]