Workflow
即将开课!自动驾驶VLA全栈学习路线图分享~
自动驾驶之心·2025-10-16 07:33

自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向,提供了类人思考能力并通过思维链形式展现决策过程,以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域:模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟,学术界和工业界关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器,实现感知→控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释,支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础,涵盖Vision、Language、Action三个模块基础知识及大模型结合,并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA,重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA,配套实战代码学习选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA,讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法,并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业,要求学员基于ms-swift框架自定义数据集和加载模型,进行训练任务微调,并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展,旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员,具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念,以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程,预计两个半月结课,采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]