自动驾驶VLA行业趋势 - 自动驾驶VLA是端到端技术之后学术界和工业界聚焦的核心方向,提供了类人思考能力并通过思维链形式展现车辆决策过程,旨在实现更可靠安全的自动驾驶能力 [1] - 传统BEV感知、车道线、Occupancy等方向已相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的主流方案 [4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA技术分类 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息 [17] - 一体化VLA实现感知→控制的端到端映射,通过单次前向传播直接将传感器输入映射为控制动作,消除模块间耦合延迟 [17] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释 [18] 自动驾驶VLA核心技术栈 - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [7] - 涉及最前沿算法包括CoT、MoE、RAG、强化学习等 [7] - 视觉感知涉及BEV感知/动静态检测/OCC及轨迹预测 [18] - 语言模型涉及序列建模/Transformer及vision-language模态对齐算法 [18] - 动作模块包括判别式解码器和生成式解码器如何输出action [18] 行业代表性算法与模型 - 模块化&一体化VLA领域重点讲解华科和小米最新提出的ReCogDrive,其包含预训练、模仿学习训练和强化学习训练三个阶段 [17] - 推理增强VLA领域重点讲解华科&小米ICCV2025中稿的ORION、慕尼黑工大的OpenDriveVLA、上海交通大学的DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等算法 [18][19][24] - 其他重要算法包括阿里&西交的FutureSightDrive、UCLA的AutoVLA、中科院和华为诺亚的Drive-R1等 [24] 行业实践与部署 - 以Qwen 2.5VL-72为例,讲解如何使用transformers或ms-swift本地部署大模型 [15] - 第五章配套实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [20] - 课程大作业要求基于ms-swift框架,自定义数据集和加载模型,开启训练任务并进行微调 [21]
刚做了一份VLA学习路线图,面向初学者......
自动驾驶之心·2025-11-08 00:04