视觉语言模型 (VLM) - 财报，业绩电话会，研报，新闻 - Reportify

视觉语言模型 (VLM)

搜索文档

自动驾驶Agent来了！DriveAgent-R1：智能思维和主动感知Agent（上海期智&理想）

自动驾驶之心· 2025-07-30 07:32

DriveAgent-R1核心创新 - 首创基于强化学习的混合思维架构，使智能体能在纯文本推理和工具辅助推理间自适应切换[12][14] - 引入主动感知机制，配备包含高分辨率视图获取、关键区域检查等功能的视觉工具箱[15][18] - 采用三阶段渐进式训练策略（DM-SFT→FCM-RL→AMS-RL），显著提升模型性能[16][19][24] - 在SUP-AD数据集上实现SOTA性能，首帧联合准确率达70.11%，超越Claude Sonnet 4等主流模型[12][26] 技术架构与性能 - 基于Qwen2.5-VL-3B模型构建，输入包含6路环视摄像头数据，输出8秒驾驶意图决策序列[11] - 创新MP-GRPO算法强化双模式能力，模式选择准确率达65.93%[24][28] - 工具使用使序列平均准确率提升15.9%，推理质量提升11.7%[26][27] - 消融实验显示完整训练策略使首帧准确率较基线提升44.8个百分点[28] 行业突破性 - 首次实现自动驾驶智能体的长时程决策能力（8秒连贯规划）[3][11] - 解决现有VLM短视决策（单步预测）和被动感知两大核心痛点[6][12] - 验证视觉工具对SOTA模型的普适增强效应（如Claude推理质量+26.1%）[26] - 建立首个评估体系量化安全性、舒适性等多维度表现[24]

视觉语言模型 (VLM)

多模态思维链 (M-CoT)

视觉语言模型 (VLM)

多模态思维链 (M-CoT)