《自动驾驶VLA与大模型实战课程》
搜索文档
刚做了一份VLA学习路线图,面向初学者......
自动驾驶之心· 2025-11-08 00:04
自动驾驶VLA行业趋势 - 自动驾驶VLA是端到端技术之后学术界和工业界聚焦的核心方向,提供了类人思考能力并通过思维链形式展现车辆决策过程,旨在实现更可靠安全的自动驾驶能力 [1] - 传统BEV感知、车道线、Occupancy等方向已相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的主流方案 [4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA技术分类 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息 [17] - 一体化VLA实现感知→控制的端到端映射,通过单次前向传播直接将传感器输入映射为控制动作,消除模块间耦合延迟 [17] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释 [18] 自动驾驶VLA核心技术栈 - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [7] - 涉及最前沿算法包括CoT、MoE、RAG、强化学习等 [7] - 视觉感知涉及BEV感知/动静态检测/OCC及轨迹预测 [18] - 语言模型涉及序列建模/Transformer及vision-language模态对齐算法 [18] - 动作模块包括判别式解码器和生成式解码器如何输出action [18] 行业代表性算法与模型 - 模块化&一体化VLA领域重点讲解华科和小米最新提出的ReCogDrive,其包含预训练、模仿学习训练和强化学习训练三个阶段 [17] - 推理增强VLA领域重点讲解华科&小米ICCV2025中稿的ORION、慕尼黑工大的OpenDriveVLA、上海交通大学的DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等算法 [18][19][24] - 其他重要算法包括阿里&西交的FutureSightDrive、UCLA的AutoVLA、中科院和华为诺亚的Drive-R1等 [24] 行业实践与部署 - 以Qwen 2.5VL-72为例,讲解如何使用transformers或ms-swift本地部署大模型 [15] - 第五章配套实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [20] - 课程大作业要求基于ms-swift框架,自定义数据集和加载模型,开启训练任务并进行微调 [21]
今日开课!清华团队带队梳理自动驾驶VLA学习路线:算法+实践
自动驾驶之心· 2025-10-20 07:32
自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术,旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法,并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战,包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示,Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline,而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展,将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-10-11 07:32
自动驾驶VLA行业趋势 - 端到端技术之后,视觉语言动作模型成为学术界和工业界聚焦的核心方向,其提供类人思考能力并通过思维链形式展现车辆决策过程,以实现更可靠安全的自动驾驶能力[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案,主流自动驾驶企业及智驾方案供应商均在发力自研[4] 自动驾驶VLA技术核心 - 技术涉及视觉感知、大语言模型、Action建模、大模型部署及数据集制作等核心内容[6] - 最前沿算法包括思维链、混合专家模型、检索增强生成及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型从被动场景描述演变为主动规划组件[16] - 一体化VLA直接连接动作解码器,实现感知到控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA趋势由解释转向长思维链推理、记忆和交互,新增推理模块并同步输出控制信号和自然语言解释[17] 行业应用与课程设计 - 课程由清华大学教研团队联合开展,包含自动驾驶VLA三个子领域前沿算法细致讲解及两个实战加一个课程大作业[6] - 课程大纲涵盖VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及大作业共六章[12][13][14][15][16][17][20] - 课程选取华科与小米提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等主流算法进行实战代码学习[16][19] - 课程进度安排自10月20日开始,预计两个半月结课,采用离线视频教学配合VIP群答疑及三次线上答疑模式[23]
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-10-08 17:04
自动驾驶VLA技术趋势 - 端到端技术后,学术界和工业界聚焦于VLA,其提供类人思考能力,通过思维链展现车辆决策过程,以实现更可靠安全的自动驾驶[1] - 自动驾驶VLA可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 该技术是各家企业急需攻克的方案,主流自动驾驶企业及车企均在发力自研[4] 课程核心内容与结构 - 课程由清华大学教研团队联合推出,包含自动驾驶VLA三个子领域前沿算法讲解,并配备两个实战及一个课程大作业[6] - 课程大纲涵盖六章:VLA算法介绍、算法基础、VLM作为解释器、模块化&一体化VLA、推理增强VLA以及大作业[9][11][13][14][15][16][19] - 课程进度安排为10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群答疑及三次线上答疑的形式[22] 技术覆盖与实战重点 - 课程核心内容包括视觉感知、大语言模型、Action建模、大模型部署及数据集制作,涉及CoT、MoE、RAG、强化学习等前沿算法[6][13] - 模块化VLA强调多阶段pipeline,一体化VLA实现感知到控制的端到端映射[15] - 推理增强VLA新增推理模块,支持长时序规划、因果解释及多模态交互,重点讲解ORION、OpenDriveVLA、DriveMoE等算法[16][17][22] - 实战部分选取ReCogDrive和Impromptu VLA,涵盖预训练、模仿学习、强化学习及基于Qwen2.5 VL的数据集制作与训练[15][18] 讲师背景与学员要求 - 讲师团队包括清华大学硕士生及QS30高校博士,在ICCV、IROS、EMNLP等顶级会议发表多篇论文,并拥有自动驾驶与大模型研发实战经验[7][8] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、Transformer大模型及Python/PyTorch语言基础[23] - 课程目标为使学员彻底理解自动驾驶VLA当前进展,掌握三大子领域核心技术,并能够复现主流算法以应用于科研及工程落地[21][23]
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-09-28 15:21
自动驾驶VLA技术趋势 - 端到端技术后,视觉语言动作模型成为学术界与工业界焦点,其提供类人思考能力并通过思维链形式展现车辆决策过程,从而提升自动驾驶可靠性及安全性[1] - 自动驾驶VLA目前划分为三个主要子领域:模块化VLA、一体化VLA以及推理增强VLA[1] - 主流自动驾驶企业,包括智驾方案供应商与车企,均在积极投入资源进行自动驾驶VLA的自研攻关,反映出行业对该技术方案的迫切需求[4] 核心技术构成与算法前沿 - 自动驾驶VLA的核心技术涵盖视觉感知、大语言模型、动作建模、大模型部署以及数据集制作等多个关键环节[6] - 该领域最前沿的算法包括思维链、混合专家模型、检索增强生成以及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型在规划决策中扮演主动角色,而一体化VLA则实现感知到控制的端到端直接映射,消除模块间延迟[16] - 推理增强VLA的新趋势是引入长思维链推理、记忆和交互模块,其特点是行动与解释并行输出,支持长时序规划与因果解释[17] 行业应用与人才培养 - 为满足行业对VLA人才的迫切需求,设计了系统的学习路线图,包含从原理到实战的完整内容,旨在推动技术发展并助力从业者深入理解VLA[4][6][22] - 课程内容覆盖三大VLA子领域的前沿算法,并配备实战项目与大作业,重点培养学员复现主流算法及自主设计VLA模型的能力,适用于科研与工程落地[6][16][20][26] - 学习要求学员自备高性能GPU,并具备自动驾驶基础、Transformer大模型、强化学习等相关技术知识,目标使学员在实习、校招及社招中受益[26]