《自动驾驶VLA实战教程》 - 财报，业绩电话会，研报，新闻

《自动驾驶VLA实战教程》

搜索文档

自动驾驶之心· 2025-09-22 16:04

智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变端到端方法虽能打通上下游视角但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点其本质是一种更直白干净的端到端架构取消了复杂的3D感知任务借鉴视觉语言模型的通用泛化能力提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛多种算法如雨后春笋般涌现包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难论文数量繁多且知识碎片化缺乏高质量文档和系统实战指导从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力帮助学员梳理研究发展脉络掌握核心框架学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉语言动作三大模块的基础知识并扩展大模型部署使用内容以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型涵盖BEV感知动静态检测占用网络轨迹预测序列建模模态对齐动作解码器 RAG 思维链监督微调强化学习混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域讲解思维链记忆体工具调用等推理模块分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践基于ms-swift框架开展自定义数据集训练和模型微调提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例包含预训练模仿学习训练和强化学习训练三阶段涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例基于开源Qwen2.5 VL进行数据集制作训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校在ICCV IROS EMNLP等顶级会议发表多篇论文具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课预计两个半月完成采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型强化学习 BEV感知等技术背景熟悉Python和PyTorch开发语言 [31]

VLA的论文占据自动驾驶前沿方向的主流了。。。

自动驾驶之心· 2025-09-20 00:03

自动驾驶VLA技术趋势 - 视觉语言动作模型及其衍生方向已成为自动驾驶公司和高校实验室的主攻方向，占据了自动驾驶前沿方向近一半的产出[1] - 推理增强VLA、强化学习及相关基准测试是当前重点研究方向[1] - VLA技术打破了传统方法的单任务局限，使自动驾驶车辆能在多样化场景中自主决策，灵活应对未见过的环境[3] - VLA方法更为直白和干净，许多方法取消了传统端到端中复杂的3D感知任务，借鉴了视觉语言模型更强大的通用泛化能力[3] - VLA技术栈尚未收敛，一系列算法如雨后春笋般冒出，导致技术栈多样且入门困难[4] 课程核心价值主张 - 课程基于Just-in-Time Learning理念，通过通俗易懂的语言和案例，帮助学员短时间内掌握核心技术栈[5] - 帮助学员梳理自动驾驶VLA的研究发展脉络，掌握领域核心框架，学会将论文分类、提取创新点[6] - 课程配有实战环节，完成从理论到实践的完整闭环[7] - 课程涵盖视觉感知、语言模块、动作模块，配套大模型的前沿技术如RAG/CoT/强化学习/MoE等广泛技术栈[4] - 针对学习挑战，课程提供系统化实战指导，帮助学员从零散论文中提炼框架、掌握领域发展趋势[4] 课程内容体系 - 第一章涵盖自动驾驶VLA算法概念及发展历史，介绍开源BenchMark和常见评测指标[11][12] - 第二章聚焦Vision、Language和Action三个模块的基础知识，讲解大模型与自动驾驶VLA的结合方式[13][14] - 第三章讲解VLM作为自动驾驶解释器的经典和最新算法，包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等[16] - 第四章深入模块化与一体化VLA，涵盖BEV感知、动静态检测、OCC及轨迹预测等关键技术[17][18] - 第五章聚焦推理增强VLA子领域，讲解长思维链推理、记忆和交互等前沿技术[20][21] - 第六章设置大作业，基于ms-swift框架进行网络构建、自定义数据集和模型训练[23] 实战项目设计 - 第四章实战选取华科和小米最新提出的ReCogDrive，包含预训练、模仿学习训练和强化学习训练三个阶段[19] - ReCogDrive涉及技术栈包含预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式[19] - 第五章实战选取清华AIR和博世提出的Impromptu VLA，基于开源Qwen2.5 VL进行数据集制作、训练和推理[21] - 大作业部分提供V-L-A各部分的代码解读以及可修改优化的demo，注重学员动手实操能力[23] 师资与学术资源 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员，在ICCV/IROS/EMNLP等顶级会议发表多篇论文[24] - 讲师团队拥有丰富的自动驾驶、大模型研发和实战经验，长期维护GitHub开源项目总Star数超过2k[24] - 课程涵盖多所顶尖机构最新研究成果，包括慕尼黑工大OpenDriveVLA、上海交通大学DriveMoE、博世DiffVLA等[26][27] - 覆盖UC Berkeley和Waymo中稿CVPR2025的S4-Driver、华科&小米ICCV2025中稿的ORION等前沿工作[26][27] 技术能力培养目标 - 学员将掌握VLA三大子领域：作为解释器的VLM、模块化&一体化VLA及推理增强VLA[28] - 培养对视觉感知、多模态大模型、强化学习等关键前沿人工智能技术的深刻理解[28] - 达到可复现VLA主流算法的水平，适用于后续科研学习及工程落地需求[28] - 具备将所学应用到项目中，独立设计自己的VLA模型的能力[28]