Workflow
自动驾驶VLA
icon
搜索文档
清华教研团队!两个月从零搭建一套自己的自动驾驶VLA模型
自动驾驶之心· 2025-09-28 15:21
自动驾驶VLA技术趋势 - 端到端技术后,视觉语言动作模型成为学术界与工业界焦点,其提供类人思考能力并通过思维链形式展现车辆决策过程,从而提升自动驾驶可靠性及安全性[1] - 自动驾驶VLA目前划分为三个主要子领域:模块化VLA、一体化VLA以及推理增强VLA[1] - 主流自动驾驶企业,包括智驾方案供应商与车企,均在积极投入资源进行自动驾驶VLA的自研攻关,反映出行业对该技术方案的迫切需求[4] 核心技术构成与算法前沿 - 自动驾驶VLA的核心技术涵盖视觉感知、大语言模型、动作建模、大模型部署以及数据集制作等多个关键环节[6] - 该领域最前沿的算法包括思维链、混合专家模型、检索增强生成以及强化学习等[6] - 模块化VLA强调多阶段流程,语言模型在规划决策中扮演主动角色,而一体化VLA则实现感知到控制的端到端直接映射,消除模块间延迟[16] - 推理增强VLA的新趋势是引入长思维链推理、记忆和交互模块,其特点是行动与解释并行输出,支持长时序规划与因果解释[17] 行业应用与人才培养 - 为满足行业对VLA人才的迫切需求,设计了系统的学习路线图,包含从原理到实战的完整内容,旨在推动技术发展并助力从业者深入理解VLA[4][6][22] - 课程内容覆盖三大VLA子领域的前沿算法,并配备实战项目与大作业,重点培养学员复现主流算法及自主设计VLA模型的能力,适用于科研与工程落地[6][16][20][26] - 学习要求学员自备高性能GPU,并具备自动驾驶基础、Transformer大模型、强化学习等相关技术知识,目标使学员在实习、校招及社招中受益[26]
基于模仿学习的端到端决定了它的上限不可能超越人类
自动驾驶之心· 2025-09-24 14:35
自动驾驶VLA技术趋势与行业认知 - 基于模仿学习的端到端自动驾驶本质是模仿人类行为,对物理世界的理解并不透彻 [1] - 端到端技术标志着智能驾驶从规则驱动向数据驱动的根本转变,但在面对复杂困难场景时仍然受限 [2] - 视觉语言模型提供了从模仿人类到成为人类的可能性,其更强大的通用泛化能力为解决corner case提供了新路径 [2] - VLA技术栈尚未收敛,一系列新算法正不断涌现 [3] 自动驾驶VLA实战课程核心内容 - 课程涵盖VLA三大子领域:作为解释器的VLM、模块化与一体化VLA、推理增强VLA [12] - 系统讲解视觉感知、语言模型、动作基础等核心技术模块 [12][21] - 包含大模型与自动驾驶结合的前沿技术:RAG、CoT、RL、MoE等 [12][21] - 提供从数据集定义到模型搭建、训练、性能提升的完整实战路径 [5][23] 课程教学团队与资质 - 讲师团队来自清华大学等顶尖院校,在ICCV、IROS、EMNLP等顶级会议发表多篇论文 [6][7][8][9][10] - 团队具备丰富的自动驾驶、大模型研发和实战经验,GitHub开源项目总Star数超过2k [6][8][10] - 教研团队联合国内外学术力量共同打造国内最新VLA实战课程 [16] 课程特色与学习价值 - 采用Just-in-Time Learning理念,直击学习痛点,帮助学员快速掌握核心技术栈 [17] - 构建领域框架,提升研究能力,帮助学员形成自己的研究体系和工作经验 [18] - 理论结合实践,配备实战环节,完成从理论到实践的完整闭环 [19][23] - 课程预计两个半月结课,采用离线视频教学加VIP群内答疑模式 [43] 自动驾驶VLA人才市场需求 - VLA/VLM大模型算法专家岗位薪资达40-70K,要求3-5年经验、硕士学历 [14] - 模型量化部署工程师薪资40-60K,要求1-3年经验、本科学历 [14] - 多模态VLA大模型方向顶尖技术人才薪资达90-120K,面向在校/应届博士 [14] - VLM实习生日薪220-400元,要求硕士学历 [14] 课程技术深度与实战项目 - 详细讲解BEV感知、目标检测、在线地图、OCC、轨迹预测等视觉感知技术 [21][32] - 涵盖Transformer基础、VL统一技术、判别式与生成式解码器等核心算法 [21] - 实战项目包括华科与小米的ReCogDrive和清华与博世的Impromptu VLA [22][23][33][35] - 大作业要求学员基于ms-swift框架搭建自己的VLA模型,完成数据准备、模型训练和微调全流程 [23][37]
自动驾驶VLA发展到哪个阶段了?现在还适合搞研究吗?
自动驾驶之心· 2025-09-22 16:04
智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变 端到端方法虽能打通上下游视角 但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点 其本质是一种更直白干净的端到端架构 取消了复杂的3D感知任务 借鉴视觉语言模型的通用泛化能力 提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛 多种算法如雨后春笋般涌现 包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难 论文数量繁多且知识碎片化 缺乏高质量文档和系统实战指导 从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念 通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力 帮助学员梳理研究发展脉络 掌握核心框架 学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习 配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史 详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉 语言 动作三大模块的基础知识 并扩展大模型部署使用内容 以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法 包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等 重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型 涵盖BEV感知 动静态检测 占用网络 轨迹预测 序列建模 模态对齐 动作解码器 RAG 思维链 监督微调 强化学习 混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域 讲解思维链 记忆体 工具调用等推理模块 分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践 基于ms-swift框架开展自定义数据集训练和模型微调 提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例 包含预训练 模仿学习训练和强化学习训练三阶段 涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例 基于开源Qwen2.5 VL进行数据集制作 训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校 在ICCV IROS EMNLP等顶级会议发表多篇论文 具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果 包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课 预计两个半月完成 采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型 强化学习 BEV感知等技术背景 熟悉Python和PyTorch开发语言 [31]
VLA的论文占据自动驾驶前沿方向的主流了。。。
自动驾驶之心· 2025-09-20 00:03
自动驾驶VLA技术趋势 - 视觉语言动作模型及其衍生方向已成为自动驾驶公司和高校实验室的主攻方向,占据了自动驾驶前沿方向近一半的产出[1] - 推理增强VLA、强化学习及相关基准测试是当前重点研究方向[1] - VLA技术打破了传统方法的单任务局限,使自动驾驶车辆能在多样化场景中自主决策,灵活应对未见过的环境[3] - VLA方法更为直白和干净,许多方法取消了传统端到端中复杂的3D感知任务,借鉴了视觉语言模型更强大的通用泛化能力[3] - VLA技术栈尚未收敛,一系列算法如雨后春笋般冒出,导致技术栈多样且入门困难[4] 课程核心价值主张 - 课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈[5] - 帮助学员梳理自动驾驶VLA的研究发展脉络,掌握领域核心框架,学会将论文分类、提取创新点[6] - 课程配有实战环节,完成从理论到实践的完整闭环[7] - 课程涵盖视觉感知、语言模块、动作模块,配套大模型的前沿技术如RAG/CoT/强化学习/MoE等广泛技术栈[4] - 针对学习挑战,课程提供系统化实战指导,帮助学员从零散论文中提炼框架、掌握领域发展趋势[4] 课程内容体系 - 第一章涵盖自动驾驶VLA算法概念及发展历史,介绍开源BenchMark和常见评测指标[11][12] - 第二章聚焦Vision、Language和Action三个模块的基础知识,讲解大模型与自动驾驶VLA的结合方式[13][14] - 第三章讲解VLM作为自动驾驶解释器的经典和最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等[16] - 第四章深入模块化与一体化VLA,涵盖BEV感知、动静态检测、OCC及轨迹预测等关键技术[17][18] - 第五章聚焦推理增强VLA子领域,讲解长思维链推理、记忆和交互等前沿技术[20][21] - 第六章设置大作业,基于ms-swift框架进行网络构建、自定义数据集和模型训练[23] 实战项目设计 - 第四章实战选取华科和小米最新提出的ReCogDrive,包含预训练、模仿学习训练和强化学习训练三个阶段[19] - ReCogDrive涉及技术栈包含预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等主流范式[19] - 第五章实战选取清华AIR和博世提出的Impromptu VLA,基于开源Qwen2.5 VL进行数据集制作、训练和推理[21] - 大作业部分提供V-L-A各部分的代码解读以及可修改优化的demo,注重学员动手实操能力[23] 师资与学术资源 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员,在ICCV/IROS/EMNLP等顶级会议发表多篇论文[24] - 讲师团队拥有丰富的自动驾驶、大模型研发和实战经验,长期维护GitHub开源项目总Star数超过2k[24] - 课程涵盖多所顶尖机构最新研究成果,包括慕尼黑工大OpenDriveVLA、上海交通大学DriveMoE、博世DiffVLA等[26][27] - 覆盖UC Berkeley和Waymo中稿CVPR2025的S4-Driver、华科&小米ICCV2025中稿的ORION等前沿工作[26][27] 技术能力培养目标 - 学员将掌握VLA三大子领域:作为解释器的VLM、模块化&一体化VLA及推理增强VLA[28] - 培养对视觉感知、多模态大模型、强化学习等关键前沿人工智能技术的深刻理解[28] - 达到可复现VLA主流算法的水平,适用于后续科研学习及工程落地需求[28] - 具备将所学应用到项目中,独立设计自己的VLA模型的能力[28]
纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)
自动驾驶之心· 2025-09-19 07:33
自动驾驶VLA技术突破 - 提出AdaThinkDrive框架 通过双模式推理机制实现自适应思考 在简单场景采用快速回答模式 在复杂场景启用慢速思考模式[3][4][11] - 基于强化学习的自适应思考奖励策略 结合GRPO算法优化模型选择性应用CoT的行为 实现准确率与效率平衡[4][33][34] - 在Navsim基准测试中PDMS达到90.3 较最佳纯视觉基线模型提升1.7分 推理时间较"始终思考"基线减少14%[4][50][58] 技术实现细节 - 采用三阶段训练流程:大规模驾驶数据预训练获取世界知识与驾驶常识 双模式SFT数据集微调 强化学习优化自适应推理策略[17][24][31] - 输入包含前视图像、导航指令、自车状态及历史轨迹 支持思考与非思考两种推理模式联合分布输出[21][26][32] - 奖励设计包含PDMS奖励、格式奖励、端点奖励和自适应思考奖励四组件 加权整合优化策略模型[34][35][36][37][38] 性能验证结果 - 在Navsim数据集验证 较"永不思考"基线PDMS提升2.0分 较"始终思考"基线提升1.4分 在96%复杂场景启用CoT 84%简单场景采用直接预测[4][56][58] - 仅视觉输入性能与多模态方法GoalFlow相当 PDMS达90.3 Best-of-N规划策略下进一步提升至93.0创基准最高分[50][55] - 消融实验显示预训练阶段使PDMS提升1.3分 强化学习阶段进一步提升2.8分 自适应思考奖励是关键组件[63][64][65] 行业技术背景 - 自动驾驶系统向端到端架构演进 VLM模型通过大规模预训练提升场景理解能力 CoT技术增强可解释性与轨迹质量但存在简单场景过度推理问题[7][10][14] - 现有自适应CoT触发方法主要基于强化学习 分为简洁推理、动态早期终止和按需推理三类 需根据高速公路巡航或路口拥堵等不同场景复杂度调整[16][33] - InternVL3-8B作为基础模型 训练使用64块NVIDIA H20 GPU 三阶段学习率从1×10⁻⁵逐步降至2×10⁻⁶[48][52]
国内首个自动驾驶VLA实战课程来了(模块化/一体化/推理增强VLA)
自动驾驶之心· 2025-09-16 18:49
技术趋势转变 - 智能驾驶从规则驱动转向数据驱动 端到端和VLM技术标志着根本性转变 [1] - 端到端技术提供打通上下游视角的能力 但在复杂困难场景中仍受限 [1] - VLA技术取消传统端到端的复杂3D感知任务 借鉴VLM的通用泛化能力 提供解决corner case的可能性 [1] 技术发展现状 - 自动驾驶VLA技术栈尚未收敛 多种算法如雨后春笋般出现 [2] - 学习路径涉及视觉感知 语言模块 动作模块 配套大模型前沿技术包括RAG CoT 强化学习 MoE等技术栈 [2] - 领域面临论文数量繁多 知识碎片化 缺乏高质量文档等入门挑战 [2] 课程设计特点 - 基于Just-in-Time Learning理念 通过通俗语言和案例帮助快速掌握核心技术栈 [3] - 梳理自动驾驶VLA研究发展脉络 帮助形成个人研究体系和工作经验 [4] - 配备实战环节 完成从理论到实践的完整闭环 [5] 课程内容体系 - 涵盖VLA算法发展历史 开源BenchMark和评测指标 [14][15] - 包含Vision Language Action三大模块基础知识和开源大模型部署实践 [17] - 专题讲解VLM作为自动驾驶解释器的经典和最新算法包括DriveGPT4 TS-VLM DynRsl-VLM SENNA [19] - 深入解析模块化VLA的多阶段pipeline和一体化VLA的端到端映射技术 [21] - 配套ReCogDrive实战代码 包含预训练 模仿学习 强化学习GRPO 扩散模型轨迹输出等技术栈 [22] - 聚焦推理增强VLA子领域 讲解Chain-of-Thought 记忆体 工具调用等推理模块 [24] - 配套Impromptu VLA实战代码 基于Qwen2.5 VL进行数据集制作 训练和推理 [24] - 大作业基于ms-swift框架 自定义数据集和加载模型 提供V-L-A各部分代码解读 [26] 技术覆盖范围 - 涵盖OpenDriveVLA DriveMoE DiffVLA S4-Driver ORION FutureSightDrive AutoVLA Drive-R1等前沿算法 [29][30] - 涉及视觉感知 多模态大模型 强化学习等关键人工智能技术 [31] - 要求学员掌握transformer大模型 强化学习 BEV感知等基础概念 [31] 教学安排 - 课程周期两个半月 从10月20日开始分章节解锁 [32] - 教学方式包括离线视频教学 vip群答疑和三次线上答疑 [32]
公司通知团队缩减,懂端到端的留下来了。。。
自动驾驶之心· 2025-08-20 07:32
行业技术趋势 - 自动驾驶行业正从模块化方法转向端到端系统 实现传感器输入到车辆规划的直接建模 减少误差累积[2] - BEV感知技术打破模块化壁垒 在统一视角下实现技术跃迁[2] - 端到端自动驾驶需融合多模态大模型、BEV感知、强化学习、视觉Transformer及扩散模型等多领域技术[5] 技术发展现状 - UniAD统一感知和规划任务 首次实现多模块单模型运行 标志端到端时代来临[2] - 端到端技术发展出多方向:二段式(如PLUTO)、基于感知的一段式(如UniAD)、基于世界模型(如OccWorld)、基于扩散模型(如DiffusionDrive)及VLA范式[9] - 扩散模型应用于多模轨迹预测 提升对不确定环境的适应性 代表工作包括DiffusionDrive、Diffusion Planner及DiffE2E[17] 技术挑战与需求 - 端到端技术学习面临多领域知识碎片化、论文数量繁多、缺乏高质量文档及系统实战指导等挑战[5] - 行业要求算法工程师具备多技能融合能力 需同时掌握算法规则、感知决策及端到端与VLA等新技术[2] - VLA作为端到端自动驾驶的皇冠技术 上限高且难度大 成为学术界和工业界研发重点 招聘需求旺盛[20] 技术应用与突破 - 世界模型技术应用广泛 涵盖场景生成、端到端及闭环仿真 代表工作包括Drive-OccWorld和OccLLaMA[15] - VLA技术融合VLM、BEV、扩散模型及强化学习 前沿工作包括小米ORION、OpenDriveVLA及ReCogDrive[20] - RLHF技术应用于VLA算法微调 具备良好延展性 支持预训练和强化学习模块搭建[21] 工业界实践 - 主机厂算法专家主导端到端、大模型及世界模型等前沿算法预研与量产 完成多项自动驾驶产品交付[22] - 行业资源向端到端与多模态大模型攻坚集中 但仍需规则算法兜底 反映技术过渡期特点[2] - 小米ORION截至2025年7月开源推理和评测模块 推动VLA技术透明化与行业应用[20]
这几个方向,从自驾转大模型会比较丝滑......
自动驾驶之心· 2025-08-06 19:25
大模型技术方向 - 大模型技术分为四大模块:大模型RAG、大模型AI Agent、多模态大模型(预训练、微调、强化学习)和大模型部署推理优化 [1] - 多模态大模型方向包括视觉语言模型、预训练数据集、PEFT、微调及部署推理优化 [2] 大模型RAG - RAG核心组件包括检索器、增强器和生成器 如何利用知识库提升性能是重点 [1] - RAG子领域快速发展:Graph RAG、视觉理解应用、Knowledge-Oriented RAG、多模态RAG、Reasoning Agentic RAG [1] - 业内已建立多种评测方法和数据集用于RAG性能评估 [1] AI Agent - AI Agent是当前最热门方向 涵盖单智能体、多智能体、智能体强化学习 [1] - 研究方向包括Agent通信效率优化、自进化Agent、RAG与Agent结合 [1] 技术社区 - 大模型之心Tech社区致力于构建国内最大大模型技术社区 持续输出产业学术信息 [3] - 社区通过知识星球平台培养人才 快速搭建技术模块 [3]
4000人了,死磕技术的自动驾驶黄埔军校到底做了哪些事情?
自动驾驶之心· 2025-07-31 14:19
社区定位与愿景 - 打造国内首个自动驾驶全栈技术交流平台,连接产业界与学术界,形成学术、产业、求职的闭环生态 [13] - 愿景是推动AI与自动驾驶技术普及,让相关资源触达每位有需求的学习者 [1] - 社区定位为培养未来行业领袖的孵化器,强调内容质量与实用性,避免形式化运营 [3] 核心资源体系 - **技术路线**:梳理40+技术路线,覆盖感知、仿真、规划控制三大方向,包括BEV感知、3DGS、世界模型等前沿领域 [14][15] - **学习资料**:提供原创视频课程(如数据工程、VLA技术等9大系列)、60+数据集、40+开源项目及行业书籍 [4][25][27][23] - **专家网络**:聚集数十位来自头部企业(蔚小理、华为、英伟达等)和顶尖高校(清华、CMU、ETH等)的一线专家 [14] 行业服务功能 - **求职对接**:与多家自动驾驶公司建立内推机制,实时分享实习/校招/社招岗位信息 [4][11][17] - **技术研讨**:组织超100场专业直播,内容涵盖VLA、3DGS、扩散模型等热点,部分场次由顶会论文作者主讲 [74] - **问题解答**:成员可自由提问技术难题(如3D车道线真值生成、BEV精度优化等),获得产业界实战解决方案 [75][79] 前沿领域覆盖 - **关键技术**:深度聚焦VLA(视觉语言模型)、端到端自动驾驶、世界模型等2025年重点方向,提供数据集、算法及量产方案 [35][37][29][33] - **工具链**:整合标定工具、CUDA加速、模型部署等工程化内容,覆盖从研发到落地的全流程 [55][59][61] - **创新应用**:探索3DGS与闭环仿真结合、扩散模型在场景重建中的应用等交叉领域 [31][40] 成员生态 - **用户构成**:成员来自上海交大、CMU等高校实验室及蔚来、大疆等企业,形成产学研协同网络 [14] - **互动模式**:通过圆桌讨论、开源项目协作、日常技术问答(如激光雷达数据处理)促进深度交流 [2][77][79] - **成长路径**:为小白提供入门路线图,为进阶者设计产业级项目方案,实现技术能力阶梯式提升 [8][10]