即将开课！自动驾驶VLA全栈学习路线图分享~

自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向，提供了类人思考能力并通过思维链形式展现决策过程，以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域：模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟，学术界和工业界关注度逐渐下降，自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业，包括智驾方案供应商和车企，均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline（感知→语言→规划→控制），语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器，实现感知→控制的端到端映射，通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块（如Chain-of-Thought、记忆体、工具调用），同步输出控制信号和自然语言解释，支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础，涵盖Vision、Language、Action三个模块基础知识及大模型结合，并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法，包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA，重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA，配套实战代码学习选取华科和小米最新提出的ReCogDrive，涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA，讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法，并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业，要求学员基于ms-swift框架自定义数据集和加载模型，进行训练任务微调，并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展，旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员，具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU，推荐算力在4090及以上，并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念，以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程，预计两个半月结课，采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]