清华教研团队！两个月从零搭建一套自己的自动驾驶VLA模型

自动驾驶VLA技术趋势 - 端到端技术后，学术界和工业界聚焦于VLA，其提供类人思考能力，通过思维链展现车辆决策过程，以实现更可靠安全的自动驾驶[1] - 自动驾驶VLA可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 该技术是各家企业急需攻克的方案，主流自动驾驶企业及车企均在发力自研[4] 课程核心内容与结构 - 课程由清华大学教研团队联合推出，包含自动驾驶VLA三个子领域前沿算法讲解，并配备两个实战及一个课程大作业[6] - 课程大纲涵盖六章：VLA算法介绍、算法基础、VLM作为解释器、模块化&一体化VLA、推理增强VLA以及大作业[9][11][13][14][15][16][19] - 课程进度安排为10月20日开课，预计两个半月结课，采用离线视频教学结合VIP群答疑及三次线上答疑的形式[22] 技术覆盖与实战重点 - 课程核心内容包括视觉感知、大语言模型、Action建模、大模型部署及数据集制作，涉及CoT、MoE、RAG、强化学习等前沿算法[6][13] - 模块化VLA强调多阶段pipeline，一体化VLA实现感知到控制的端到端映射[15] - 推理增强VLA新增推理模块，支持长时序规划、因果解释及多模态交互，重点讲解ORION、OpenDriveVLA、DriveMoE等算法[16][17][22] - 实战部分选取ReCogDrive和Impromptu VLA，涵盖预训练、模仿学习、强化学习及基于Qwen2.5 VL的数据集制作与训练[15][18] 讲师背景与学员要求 - 讲师团队包括清华大学硕士生及QS30高校博士，在ICCV、IROS、EMNLP等顶级会议发表多篇论文，并拥有自动驾驶与大模型研发实战经验[7][8] - 学员需自备GPU，推荐算力在4090及以上，并具备自动驾驶领域基础、Transformer大模型及Python/PyTorch语言基础[23] - 课程目标为使学员彻底理解自动驾驶VLA当前进展，掌握三大子领域核心技术，并能够复现主流算法以应用于科研及工程落地[21][23]