Workflow
视觉语言模型 (VLM)
icon
搜索文档
自动驾驶Agent来了!DriveAgent-R1:智能思维和主动感知Agent(上海期智&理想)
自动驾驶之心· 2025-07-30 07:32
DriveAgent-R1核心创新 - 首创基于强化学习的混合思维架构,使智能体能在纯文本推理和工具辅助推理间自适应切换[12][14] - 引入主动感知机制,配备包含高分辨率视图获取、关键区域检查等功能的视觉工具箱[15][18] - 采用三阶段渐进式训练策略(DM-SFT→FCM-RL→AMS-RL),显著提升模型性能[16][19][24] - 在SUP-AD数据集上实现SOTA性能,首帧联合准确率达70.11%,超越Claude Sonnet 4等主流模型[12][26] 技术架构与性能 - 基于Qwen2.5-VL-3B模型构建,输入包含6路环视摄像头数据,输出8秒驾驶意图决策序列[11] - 创新MP-GRPO算法强化双模式能力,模式选择准确率达65.93%[24][28] - 工具使用使序列平均准确率提升15.9%,推理质量提升11.7%[26][27] - 消融实验显示完整训练策略使首帧准确率较基线提升44.8个百分点[28] 行业突破性 - 首次实现自动驾驶智能体的长时程决策能力(8秒连贯规划)[3][11] - 解决现有VLM短视决策(单步预测)和被动感知两大核心痛点[6][12] - 验证视觉工具对SOTA模型的普适增强效应(如Claude推理质量+26.1%)[26] - 建立首个评估体系量化安全性、舒适性等多维度表现[24]