Workflow
国内首个自动驾驶VLA实战课程来了(模块化/一体化/推理增强VLA)
自动驾驶之心·2025-09-16 18:49

技术趋势转变 - 智能驾驶从规则驱动转向数据驱动 端到端和VLM技术标志着根本性转变 [1] - 端到端技术提供打通上下游视角的能力 但在复杂困难场景中仍受限 [1] - VLA技术取消传统端到端的复杂3D感知任务 借鉴VLM的通用泛化能力 提供解决corner case的可能性 [1] 技术发展现状 - 自动驾驶VLA技术栈尚未收敛 多种算法如雨后春笋般出现 [2] - 学习路径涉及视觉感知 语言模块 动作模块 配套大模型前沿技术包括RAG CoT 强化学习 MoE等技术栈 [2] - 领域面临论文数量繁多 知识碎片化 缺乏高质量文档等入门挑战 [2] 课程设计特点 - 基于Just-in-Time Learning理念 通过通俗语言和案例帮助快速掌握核心技术栈 [3] - 梳理自动驾驶VLA研究发展脉络 帮助形成个人研究体系和工作经验 [4] - 配备实战环节 完成从理论到实践的完整闭环 [5] 课程内容体系 - 涵盖VLA算法发展历史 开源BenchMark和评测指标 [14][15] - 包含Vision Language Action三大模块基础知识和开源大模型部署实践 [17] - 专题讲解VLM作为自动驾驶解释器的经典和最新算法包括DriveGPT4 TS-VLM DynRsl-VLM SENNA [19] - 深入解析模块化VLA的多阶段pipeline和一体化VLA的端到端映射技术 [21] - 配套ReCogDrive实战代码 包含预训练 模仿学习 强化学习GRPO 扩散模型轨迹输出等技术栈 [22] - 聚焦推理增强VLA子领域 讲解Chain-of-Thought 记忆体 工具调用等推理模块 [24] - 配套Impromptu VLA实战代码 基于Qwen2.5 VL进行数据集制作 训练和推理 [24] - 大作业基于ms-swift框架 自定义数据集和加载模型 提供V-L-A各部分代码解读 [26] 技术覆盖范围 - 涵盖OpenDriveVLA DriveMoE DiffVLA S4-Driver ORION FutureSightDrive AutoVLA Drive-R1等前沿算法 [29][30] - 涉及视觉感知 多模态大模型 强化学习等关键人工智能技术 [31] - 要求学员掌握transformer大模型 强化学习 BEV感知等基础概念 [31] 教学安排 - 课程周期两个半月 从10月20日开始分章节解锁 [32] - 教学方式包括离线视频教学 vip群答疑和三次线上答疑 [32]