Autonomous Driving Multi-modal Large Model

搜索文档
VLM还是VLA?从现有工作看自动驾驶多模态大模型的发展趋势~
自动驾驶之心· 2025-08-21 07:33
基于LLM的自动驾驶决策方法 - 利用大语言模型的推理能力描述自动驾驶场景,处于自动驾驶与大模型结合的早期阶段 [4] - Distilling Multi-modal Large Language Models for Autonomous Driving 论文发表于arXiv [4] - LearningFlow 提出自动化策略学习工作流用于城市驾驶场景 [4] - CoT-Drive 使用思维链提示技术实现高效运动预测 [4] - PADriver 探索个性化自动驾驶解决方案 [4] - LanguageMPC 将大语言模型作为自动驾驶决策者 [6] - Driving with LLMs 融合对象级矢量模态实现可解释自动驾驶 [5] - A Language Agent for Autonomous Driving 项目主页位于USC-GVL实验室 [7] 基于VLM的自动驾驶决策方法 - 视觉语言模型成为当前主流范式,视觉是自动驾驶最依赖的传感器类型 [8] - Drive-R1 通过强化学习桥接VLM中的推理与规划能力 [8] - FutureSightDrive 使用时空调维思维链实现轨迹规划可视化 [8] - Generative Planning 利用3D视觉语言预训练进行端到端自动驾驶 [9] - ORION 通过视觉语言指令生成实现整体端到端自动驾驶框架 [12] - DriveVLM 实现自动驾驶与大视觉语言模型的融合 [12] - DriveGPT4 通过大语言模型实现可解释的端到端自动驾驶 [12] - LightEMMA 是轻量级端到端多模态自动驾驶模型 [12] 基于VLA的自动驾驶决策方法 - AutoVLA 结合自适应推理和强化微调的视觉-语言-动作模型 [17] - DiffVLA 使用视觉语言引导扩散规划进行自动驾驶 [18] - Impromptu VLA 提供开放权重和开放数据的驾驶视觉-语言-动作模型 [20] - DriveMoE 为端到端自动驾驶设计专家混合模型 [21] - OpenDriveVLA 致力于基于大视觉语言动作模型的端到端自动驾驶 [21] - AlphaDrive 通过强化学习和推理释放VLM在自动驾驶中的潜力 [17] - X-Driver 使用视觉语言模型实现可解释自动驾驶 [17] 研究机构与会议分布 - 多数研究以arXiv预印本形式发布,部分发表于ICLR 2024、ECCV 2024、NeurIPS 2024等顶级会议 [7][13][15] - 项目代码多开源在GitHub平台,包括PJLab-ADG、wayveai、USC-GVL等实验室仓库 [7][13][18] - 研究机构包括密歇根交通实验室、清华大学Mars实验室、上海交通大学ThinkLab等知名院校 [12][15][21]