自动驾驶VLA
搜索文档
刚做了一份VLA学习路线图,面向初学者......
自动驾驶之心· 2025-11-08 00:04
自动驾驶VLA行业趋势 - 自动驾驶VLA是端到端技术之后学术界和工业界聚焦的核心方向,提供了类人思考能力并通过思维链形式展现车辆决策过程,旨在实现更可靠安全的自动驾驶能力 [1] - 传统BEV感知、车道线、Occupancy等方向已相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的主流方案 [4] - 主流自动驾驶企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA技术分类 - 自动驾驶VLA目前可分为三个子领域:模块化VLA、一体化VLA和推理增强VLA [1] - 模块化VLA强调多阶段pipeline(感知→语言→规划→控制),语言模型为规划决策提供信息 [17] - 一体化VLA实现感知→控制的端到端映射,通过单次前向传播直接将传感器输入映射为控制动作,消除模块间耦合延迟 [17] - 推理增强VLA将VLM/LLM置于控制中心,新增推理模块(如Chain-of-Thought、记忆体、工具调用),同步输出控制信号和自然语言解释 [18] 自动驾驶VLA核心技术栈 - 核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [7] - 涉及最前沿算法包括CoT、MoE、RAG、强化学习等 [7] - 视觉感知涉及BEV感知/动静态检测/OCC及轨迹预测 [18] - 语言模型涉及序列建模/Transformer及vision-language模态对齐算法 [18] - 动作模块包括判别式解码器和生成式解码器如何输出action [18] 行业代表性算法与模型 - 模块化&一体化VLA领域重点讲解华科和小米最新提出的ReCogDrive,其包含预训练、模仿学习训练和强化学习训练三个阶段 [17] - 推理增强VLA领域重点讲解华科&小米ICCV2025中稿的ORION、慕尼黑工大的OpenDriveVLA、上海交通大学的DriveMoE、博世和清华AIR的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等算法 [18][19][24] - 其他重要算法包括阿里&西交的FutureSightDrive、UCLA的AutoVLA、中科院和华为诺亚的Drive-R1等 [24] 行业实践与部署 - 以Qwen 2.5VL-72为例,讲解如何使用transformers或ms-swift本地部署大模型 [15] - 第五章配套实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [20] - 课程大作业要求基于ms-swift框架,自定义数据集和加载模型,开启训练任务并进行微调 [21]
今日开课!清华团队带队梳理自动驾驶VLA学习路线:算法+实践
自动驾驶之心· 2025-10-20 07:32
自动驾驶行业技术趋势 - 行业技术焦点已从传统的BEV感知、车道线、Occupancy等相对成熟的方向转向自动驾驶VLA [4] - VLA被视为提供类人思考能力、通过思维链形式展现车辆决策过程的关键技术,旨在实现更可靠安全的自动驾驶 [1] - 自动驾驶VLA目前主要分为模块化VLA、一体化VLA和推理增强VLA三个子领域 [1] 自动驾驶VLA核心技术要素 - 核心技术涵盖视觉感知、大语言模型、Action建模、大模型部署及数据集制作等 [7] - 涉及的最前沿算法包括CoT、MoE、RAG以及强化学习 [7] - 行业主流企业,包括智驾方案供应商和车企,均在发力自研自动驾驶VLA [4] 自动驾驶VLA课程核心内容 - 课程系统讲解自动驾驶VLA三个子领域的前沿算法,并配备两个实战及一个课程大作业 [8] - 课程大纲包含VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及综合大作业 [13][15][16][17][18][21] - 课程设计从原理到实战,包含对开源BenchMark、评测指标及数据集制作专题的详细讲解 [14][15] 自动驾驶VLA算法发展路径 - VLA发展路径显示,Language从被动的场景描述演变为模块化架构中的主动规划组件 [17] - 模块化VLA强调多阶段pipeline,而一体化VLA实现感知到控制的端到端映射 [17] - 推理增强VLA的趋势是向长思维链推理、记忆和交互发展,将VLM/LLM置于控制中心 [18] 行业实践与前沿算法案例 - 课程实战部分选取了华科与小米最新提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等算法进行代码学习 [17][20] - 重点讲解的算法案例包括DriveGPT4、TS-VLM、ORION、DriveMoE、DiffVLA、S4-Driver等业界前沿工作 [16][18][19][24] - 算法训练涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式 [17]
传统的感知被嫌弃,VLA逐渐成为新秀...
自动驾驶之心· 2025-10-11 07:32
自动驾驶VLA行业趋势 - 端到端技术之后,视觉语言动作模型成为学术界和工业界聚焦的核心方向,其提供类人思考能力并通过思维链形式展现车辆决策过程,以实现更可靠安全的自动驾驶能力[1] - 自动驾驶VLA目前可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 传统BEV感知、车道线、Occupancy等方向相对成熟,行业关注度逐渐下降,自动驾驶VLA成为各家企业急需攻克的方案,主流自动驾驶企业及智驾方案供应商均在发力自研[4] 自动驾驶VLA技术核心 - 技术涉及视觉感知、大语言模型、Action建模、大模型部署及数据集制作等核心内容[6] - 最前沿算法包括思维链、混合专家模型、检索增强生成及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型从被动场景描述演变为主动规划组件[16] - 一体化VLA直接连接动作解码器,实现感知到控制的端到端映射,通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA趋势由解释转向长思维链推理、记忆和交互,新增推理模块并同步输出控制信号和自然语言解释[17] 行业应用与课程设计 - 课程由清华大学教研团队联合开展,包含自动驾驶VLA三个子领域前沿算法细致讲解及两个实战加一个课程大作业[6] - 课程大纲涵盖VLA算法介绍、算法基础、VLM作为解释器、模块化与一体化VLA、推理增强VLA及大作业共六章[12][13][14][15][16][17][20] - 课程选取华科与小米提出的ReCogDrive及清华AIR与博世提出的Impromptu VLA等主流算法进行实战代码学习[16][19] - 课程进度安排自10月20日开始,预计两个半月结课,采用离线视频教学配合VIP群答疑及三次线上答疑模式[23]
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-10-08 17:04
自动驾驶VLA技术趋势 - 端到端技术后,学术界和工业界聚焦于VLA,其提供类人思考能力,通过思维链展现车辆决策过程,以实现更可靠安全的自动驾驶[1] - 自动驾驶VLA可分为模块化VLA、一体化VLA和推理增强VLA三个子领域[1] - 该技术是各家企业急需攻克的方案,主流自动驾驶企业及车企均在发力自研[4] 课程核心内容与结构 - 课程由清华大学教研团队联合推出,包含自动驾驶VLA三个子领域前沿算法讲解,并配备两个实战及一个课程大作业[6] - 课程大纲涵盖六章:VLA算法介绍、算法基础、VLM作为解释器、模块化&一体化VLA、推理增强VLA以及大作业[9][11][13][14][15][16][19] - 课程进度安排为10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群答疑及三次线上答疑的形式[22] 技术覆盖与实战重点 - 课程核心内容包括视觉感知、大语言模型、Action建模、大模型部署及数据集制作,涉及CoT、MoE、RAG、强化学习等前沿算法[6][13] - 模块化VLA强调多阶段pipeline,一体化VLA实现感知到控制的端到端映射[15] - 推理增强VLA新增推理模块,支持长时序规划、因果解释及多模态交互,重点讲解ORION、OpenDriveVLA、DriveMoE等算法[16][17][22] - 实战部分选取ReCogDrive和Impromptu VLA,涵盖预训练、模仿学习、强化学习及基于Qwen2.5 VL的数据集制作与训练[15][18] 讲师背景与学员要求 - 讲师团队包括清华大学硕士生及QS30高校博士,在ICCV、IROS、EMNLP等顶级会议发表多篇论文,并拥有自动驾驶与大模型研发实战经验[7][8] - 学员需自备GPU,推荐算力在4090及以上,并具备自动驾驶领域基础、Transformer大模型及Python/PyTorch语言基础[23] - 课程目标为使学员彻底理解自动驾驶VLA当前进展,掌握三大子领域核心技术,并能够复现主流算法以应用于科研及工程落地[21][23]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-18 07:33
技术趋势分析 - 端到端与视觉语言动作模型标志着智能驾驶从规则驱动向数据驱动的根本性转变 [1] - 端到端模型虽能打通上下游视角,但在处理复杂困难场景时仍受限制,量产模型迭代陷入无限处理极端案例的循环 [1] - 视觉语言动作模型可视为一种更直白干净的端到端方法,取消了复杂的3D感知任务,凭借更强大的通用泛化能力为解决极端案例提供了可能性 [1] - 自动驾驶视觉语言动作模型技术栈尚未收敛,一系列算法如雨后春笋般出现 [2] 课程核心价值 - 课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员短时间内掌握核心技术栈 [3] - 课程帮助学员梳理自动驾驶视觉语言动作模型的研究发展脉络,掌握领域核心框架,学会将论文分类并提取创新点 [4] - 课程配有实战环节,完成从理论到实践的完整闭环 [5] - 课程涵盖视觉感知、语言模块、动作模块及大模型前沿技术,包括检索增强生成、思维链、强化学习、混合专家模型等广泛技术栈 [2] 课程内容架构 - 第一章概述自动驾驶视觉语言动作模型算法概念及发展历史,介绍开源基准和常见评测指标 [9][10] - 第二章讲解视觉、语言、动作三个模块的基础知识,以及大模型与自动驾驶视觉语言动作模型的结合,包括以Qwen 2.5VL-72为例的开源大模型部署使用 [11][12] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等算法的动机、网络结构及核心 [13][14] - 第四章聚焦模块化与一体化视觉语言动作模型,讲解视觉感知、语言模型、动作模块的基础知识及检索增强生成、思维链、监督微调、强化学习、混合专家模型等技术 [15][16] - 第四章实战代码选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习训练和强化学习训练三个阶段的主流范式 [17] - 第五章聚焦推理增强视觉语言动作模型子领域,讲解长思维链推理、记忆和交互等趋势 [18][19] - 第五章实战代码选取清华AIR和博世提出的Impromptu视觉语言动作模型,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [19] - 第六章大作业基于ms-swift框架,从网络构建开始,自定义数据集和加载模型,开启训练任务并进行微调 [21] 学术前沿覆盖 - 课程覆盖慕尼黑工大提出的OpenDriveVLA、上海交通大学提出的DriveMoE、博世和清华AIR提出的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等前沿算法 [24] - 课程涵盖华科&小米 ICCV2025中稿的ORION、阿里&西交团队提出的FutureSightDrive、UCLA提出的AutoVLA、中科院和华为诺亚提出的Drive-R1等最新研究 [25] 教学团队与安排 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员,在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表多篇论文,具备多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验 [22] - 课程于10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群内答疑及三次线上答疑的模式 [27]
决定了!还是冲击自动驾驶算法
自动驾驶之心· 2025-08-30 12:03
自动驾驶行业人才需求与就业趋势 - 自动驾驶算法岗位薪资在AI行业中属于顶薪水平 特别是端到端、VLA和强化学习等方向[1] - 行业存在大量人才需求 主机厂和Tier 1企业积极招聘优秀人才攻坚L3/L4级别量产难题[1] - 具身智能领域热度上升 部分从业者转向机器人赛道 但自动驾驶行业仍需更多专业人才[1] 自动驾驶之心知识社区生态 - 社区成立三年 已发展成集视频、图文、学习路线、问答和求职交流的综合型平台[1] - 当前社区规模超过4000人 目标两年内达到近万人规模[1] - 社区提供40+技术路线梳理 涵盖端到端自动驾驶、VLA benchmark等前沿方向[2][5] - 邀请数十位产业界和学术界一线专家入驻 包括经常出现在顶会和访谈中的行业领袖[2] 技术研究方向与资源汇总 - 汇总近40个自动驾驶技术方向 包括BEV感知、扩散模型、世界模型等核心领域[5][13] - 整理近60个自动驾驶数据集 包含多模态大模型预训练数据集和VLA微调专用数据集[13][30] - 提供100问系列专业解答 包括TensorRT部署、毫米波雷达融合等工程实践问题[6] - 开源项目覆盖3D目标检测、闭环仿真3DGS、自动驾驶大模型等关键领域[29] 行业培训与学术交流 - 开设全栈方向学习课程 专门针对0基础入门者设计[7][9] - 举办超过100场专业技术直播 邀请顶尖高校和企业专家分享最新研究成果[54] - 直播内容涵盖V2X技术发展、神经符号系统、3D检测基础模型等前沿话题[54] - 与国内外300多家机构和自动驾驶公司建立交流机制[66] 企业合作与就业服务 - 与多家自动驾驶公司建立内推机制 直接对接企业招聘需求[9] - 社区成员来自蔚小理、地平线、华为、大疆等头部企业[13] - 覆盖高校包括上海交大、清华大学、CMU、ETH等国内外知名院校[13] - 提供职业规划咨询 帮助解决offer选择、研究方向选择等实际问题[59][61] 技术发展前沿动态 - 端到端自动驾驶成为学术界和工业界研究热点 涵盖一段式/二段式量产方案[31] - 2025年VLA(视觉语言动作模型)成为最火方向 社区详细梳理最新综述和开源数据集[36] - 世界模型技术汇总涵盖技术前沿和业界应用 成为当前研究重点[33] - 3DGS与NeRF技术应用于自动驾驶场景重建与闭环仿真[32] 行业发展趋势分析 - 2025年上半年自动驾驶面临量产挑战 学术界关注技术方向转型[64] - 端到端范式在学术界呈现多样化发展 但数据集迭代速度需跟上技术发展[63] - 无图NOA量产方案依赖在线高精地图技术 成为工业界关注重点[43] - 主流量产方案仍采用多模块融合方式 需要5个以上模型协同工作[61]
自动驾驶VLA工作汇总(模块化/端到端/推理增强)
自动驾驶之心· 2025-08-12 19:42
文章核心观点 - 文章梳理了近两年VLA(Vision-Language-Action)在自动驾驶领域的发展路线和算法汇总,涵盖前置工作、模块化VLA、端到端VLA和推理增强VLA等多个方向 [1][3][4][6] - 介绍了多个相关论文和开源项目,包括DriveGPT4、TS-VLM、DynRsl-VLM、RAG-Driver、OpenDriveVLA、DriveMoE等 [3][4][6][9] - 提供了自动驾驶之心知识星球的详细信息,包括技术路线、学习资源和行业资源 [7][10][15] VLA前置工作 - DriveGPT4提出通过大型语言模型实现可解释的端到端自动驾驶 [3] - TS-VLM采用文本引导的SoftSort池化方法用于多视角驾驶推理的视觉语言模型 [3] - DynRsl-VLM通过动态分辨率视觉语言模型增强自动驾驶感知能力 [3] 模块化VLA - RAG-Driver在多模态大型语言模型中通过检索增强的上下文学习实现通用驾驶解释 [4] - OpenDriveVLA致力于构建端到端自动驾驶的大型视觉语言动作模型 [4] - DriveMoE采用专家混合方法构建端到端自动驾驶的视觉语言动作模型 [4] - LangCoop探索语言协作驾驶 [4] - SafeAuto利用多模态基础模型实现知识增强的安全自动驾驶 [4] - ReCogDrive提出强化认知框架用于端到端自动驾驶 [4] 端到端VLA - ADriver-I构建自动驾驶通用世界模型 [6] - EMMA是端到端多模态自动驾驶模型 [6] - CoVLA提供全面的视觉语言动作数据集用于自动驾驶 [6] - SimLingo实现仅视觉的闭环自动驾驶与语言动作对齐 [6] - DiffVLA采用视觉语言引导扩散规划用于自动驾驶 [6] - S4-Driver是具备时空视觉表示的可扩展自监督驾驶多模态大型语言模型 [6] - ORION是通过视觉语言指令动作生成的整体端到端自动驾驶框架 [6] - Impromptu VLA提供开放权重和开放数据用于驾驶视觉语言动作模型 [6][9] 推理增强VLA - FutureSightDrive通过时空思维链实现视觉思考的自动驾驶 [9] - AutoVLA是具备自适应推理和强化微调的端到端自动驾驶视觉语言动作模型 [9] - Drive-R1通过强化学习桥接自动驾驶视觉语言模型中的推理和规划 [9] 自动驾驶之心知识星球 - 社区汇总40+技术路线、60+数据集和行业主流仿真平台 [7][15] - 提供自动驾驶感知、仿真、规划控制等多领域学习路线 [15] - 成员来自国内外知名高校和头部自动驾驶公司 [15] - 建立与多家自动驾驶公司的岗位内推机制 [11] - 为入门者提供完备的技术栈和路线图 [12] - 为研究者提供有价值的产业体系和项目方案 [13]
自动驾驶前沿方案:从端到端到VLA工作一览
自动驾驶之心· 2025-08-10 11:31
自动驾驶技术趋势 - 端到端自动驾驶方案分为一段式和二段式,一段式直接建模传感器输入到轨迹输出,二段式侧重感知输入与轨迹预测联合优化 [3] - 主流一段式方案包括基于感知的UniAD、基于扩散模型的DiffusionDrive、基于世界模型的Drive-OccWorld,量产中会融合多种方法优势 [3] - VLA(视觉语言模型+端到端)通过大模型提升场景理解能力,当前研究涵盖语言解释器、模块化VLA、端到端VLA及推理增强算法 [5] 技术资源体系 - 社区整合40+技术路线,覆盖VLA benchmark、综述、入门路线及产业项目方案 [7][15] - 汇总60+自动驾驶数据集,包括多模态大模型预训练/微调数据集、强化学习数据集等 [35] - 梳理近40+开源项目,涉及3D目标检测、BEV感知、世界模型、3DGS等前沿领域 [33] 行业生态与人才 - 社区成员来自国内外顶尖高校(清华、CMU、ETH等)及头部企业(蔚小理、华为、英伟达等) [19] - 建立企业内推机制,覆盖RoboTaxi、重卡、造车新势力等自动驾驶相关公司 [10][29] - 定期举办100+场技术直播,分享VLA、3D检测、扩散模型等最新研究成果 [82] 关键技术研究方向 - 端到端自动驾驶研究聚焦纯视觉/多模态方案、世界模型结合、长尾分布处理等细分方向 [26][37] - 世界模型应用涵盖场景生成、交通仿真、传感器仿真等技术落地路径 [26][41] - BEV感知作为量产基石,覆盖纯视觉/多模态方案及工程部署优化 [50] - 3D目标检测技术路线包括激光点云、单目/双目视觉、多模态融合等方法 [52]