Workflow
VLM
icon
搜索文档
自动驾驶三大技术路线:端到端、VLA、世界模型
自动驾驶之心· 2025-11-21 08:04
作者 | 深蓝学院 来源 | 自动驾驶最新技术路线总结(分阶段、BEV、端到端、VLA) 点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近30个 方向 学习 路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球 本文只做学术分享,如有侵权,联系删文 概述 行业在解决的问题:安全且经济 corner case 技术路线之争 单车智能 vs 智能网联 传感器:视觉 vs 激光雷达 算法架构:模块化 vs 端到端 AI决策:VLM vs VLA vs WA( 去LLM) Waymo 等主流企业采用 VLM ,让 AI 负责环境理解与推理,最终决策权交由传统模块,确保过程可控 特斯拉 、吉利、小鹏等企业探索的 VLA 则试图让 AI 直接学习所有驾驶技巧,通过海量数据训练实现 "端到端" 决策 华为: ADS 4 为代表的WEWA 架构(世界引擎 + 世界动作模型) 图片来源:https://arxiv.org/pdf/2506.24044 规则系统 → 数据驱动 → 认知建模 2022年以前:感知、预测、决策(规划控制) 2022年: BEV 感知成为主流 2023年: OCC 感知 ...
最火VLA,看这一篇综述就够了
具身智能之心· 2025-11-03 08:03
文章核心观点 - 视觉-语言-动作模型是当前人工智能领域极具吸引力的前沿阵地,其目标是让机器人具备听懂人话、看懂世界、动手干活的能力 [7] - ICLR 2026会议上VLA模型相关投稿量从去年的个位数飙升至164篇,增长了18倍,显示出该领域的爆发式增长 [6] - 学术界对VLA尚无统一定义,但核心标准是模型必须使用经过大规模互联网级别视觉-语言数据预训练的骨干网络 [8][9] VLA概念定义与区分 - VLA模型强调基因,必须继承自强大的视觉语言模型,具备语言理解、视觉泛化和任务迁移能力 [9][12] - 大型行为模型强调养料,指在大规模多任务机器人演示数据上训练出的策略 [11][13] - 一个在大量机器人数据上微调的VLA同时也是一个LBM,但LBM不一定是VLA [13][14] - 简单拼接独立视觉编码器和文本编码器的模型应称为多模态策略,而非VLA [11] ICLR 2026 VLA八大技术趋势 - **高效架构新范式**:离散扩散模型成为新风向,可并行生成整个动作序列,在LIBERO评测中取得近乎饱和表现 [15][16][17] - **具身思维链**:让机器人生成动作前先产生中间推理步骤,提升计划与解释能力,在SIMPLER等评测中表现突出 [18][19][20][21] - **动作分词器**:将连续高频机器人动作转换为VLM能理解的离散词汇,包括FASTer Tokenizer和OmniSAT等新进展 [22][25][31] - **强化学习微调**:作为VLA策略的微调利器,代表作在LIBERO和SIMPLER上分别取得99%和98%的成功率 [26][27][32] - **效率优化**:通过HyperVLA的超网络机制和AutoQVLA的智能量化等技术降低硬件门槛,使VLA走向平民化 [28][29][33] - **视频预测赋能**:利用视频生成模型理解时序动态和物理规律,为机器人控制提供强先验知识 [30][35][36] - **真实评测基准**:社区开发如RoboCasa365和WorldGym等新基准,致力于打破对现有测试集的过拟合 [37][40][47] - **跨体态学习**:通过X-VLA的软提示、XR-1的统一视觉-运动编码等技术让模型适应不同结构的机器人 [41][43][48] 行业现状与挑战 - 主流仿真评测存在性能天花板问题,开源模型仿真得分高但真实世界表现仍难匹敌前沿产品如Google的Pi-0.5 [44][45] - 头部公司凭借海量高质量真实数据、更看重开放环境和泛化能力的评测维度以及大规模工程支持占据优势 [49] - 数据质量中的噪声、歧义和次优行为可能限制模型上限,上下文学习机制向机器人领域的迁移或是通用VLA的突破口 [50] 作者背景与权威性 - 作者Moritz Reuss是德国卡尔斯鲁厄理工学院四年级博士生,2025年Apple AI/ML学者奖得主 [4][46][52] - 作为将扩散模型引入机器人策略研究的先行者,其研究成果多次发表于RSS、ICLR、NeurIPS等顶级会议 [4][52]
理想智驾是参考特斯拉, 不是跟随特斯拉已经有了很强的证据
理想TOP2· 2025-10-24 12:48
理想智驾与特斯拉的技术发展关系 - 理想智驾从V10-11时期的跟随特斯拉转变为V12及以后的参考特斯拉,跟随尺度显著降低[2] - 转变的核心锚点是理想在VLM后进行了大量特斯拉未公开提及的原始创新,其VLA创新度达到DeepSeek MoE水平[2] - 理想VLM由快系统(系统一)和慢系统(系统二)组成,快系统部分可视为跟随特斯拉,但慢系统部分为理想独立创新,因为特斯拉直到ICCV 2025才提及该概念,而理想在2024年X月已发表相关论文[3] - 理想VLM到VLA的演进是基于VLM的自然发展路线,而非追随特斯拉[3] 特斯拉端到端自动驾驶技术框架 - 特斯拉转向单一、大型的端到端神经网络,直接输入像素和传感器数据,输出控制动作,不再有显式感知模块[4] - 转向端到端的原因包括:人类价值观编码困难、传统模块接口信息丢失、易于扩展处理长尾问题、实现同构计算与确定性延迟[5] - 面临三大挑战:维度灾难(30秒窗口达20亿token)、可解释性与安全保证、评估难度[6][7] - 解决方案包括:利用车队数据挖掘高价值场景、通过辅助输出(如3D占用、自然语言决策)实现可解释性、使用神经网络闭环模拟器进行评估[7][8][9][10] 理想与特斯拉技术路线的对比与创新时序 - Ashok在ICCV 2025提及的系统2自然语言应用、高斯溅射生成仿真、仿真评估等概念均为理想率先公开[13][16] - 理想在2024年1月2日发表的论文已包含3D高斯表征相关内容,早于特斯拉ICCV 2025的公开介绍[18][20] - 特斯拉架构图中明确标注系统2和LLM应用,进一步验证理想在相关技术方向的先行性[22] - Ashok此次演讲未提出突破性概念,因此不能认为特斯拉再次引领行业研究方向调整[13]
Vision-Zero:零数据VLM自我进化!陈怡然团队提出零监督训练新范式
机器之心· 2025-10-11 11:29
Vision-Zero框架核心创新 - 提出专为视觉语言模型设计的自博弈框架Vision-Zero,通过模型与自身副本竞争自动生成高复杂度推理数据,无需人工标注[6] - 框架特点包括策略自博弈、支持任意形式图片输入、以及通过Iterative-SPO算法实现持续性能提升,解决了传统自博弈的性能瓶颈问题[6][7] - 该框架在多个领域如推理和图表问答任务上,即使未使用任何标注数据训练,也超越了其他需要标注的当前最优方法[7] 自博弈机制设计 - 受社交推理游戏“谁是卧底”启发设计自博弈规则,游戏包含n名平民和1名卧底,卧底图片与平民存在细微差异[12][13] - 游戏过程包括线索阶段和决策阶段,迫使智能体生成复杂推理链条,随着对手能力提升,其视觉理解与推理能力被激发增强[14][15] - 游戏仅需两张有细微差异的图片对即可启动,数据构建成本低廉,应用场景广泛,支持合成场景、图表数据和真实世界图片等多种输入[17][18] 训练方法与性能优化 - 提出Iterative Self-Play Policy Optimization双阶段交替训练算法,通过自博弈和可验证奖励的强化学习交替优化,避免陷入局部平衡和知识饱和[20] - 实验表明交替训练性能明显优于单阶段训练,有效缓解了纯自博弈训练难以探索新推理路径的问题[20] 实验结果与性能表现 - 在六个基准数据集测试中,VisionZero-Qwen-7B模型较基线提升约3%,另一版本提升约2.8%,而最优基线方法仅提升约1.9%[22] - Vision-Zero框架训练的模型有效缓解了跨能力负迁移问题,例如在图表问答任务上,基线模型性能下降约10%,而Vision-Zero模型在视觉任务提升的同时,在图表任务上平均仅下降0.2%[24] - 具体数据显示,VisionZero-Qwen-7B在MathVista得分72.6,在MathVision得分28.1,在WeMath得分39.8,平均表现优于对比基线模型[24] 框架启示与应用潜力 - Vision-Zero证明了自博弈从单一任务走向通用任务的可行性与巨大潜力,通过构建开放、可扩展的博弈环境摆脱了对人工标注的依赖[26] - 该框架使模型在无需特定任务训练的前提下实现可持续的能力进化与跨领域泛化,突破了数据和知识瓶颈[26]
自动驾驶VLA发展到哪个阶段了?现在还适合搞研究吗?
自动驾驶之心· 2025-09-22 16:04
智能驾驶技术演进 - 行业正经历从规则驱动向数据驱动的根本转变 端到端方法虽能打通上下游视角 但在复杂困难场景中仍受限 [1] - 视觉语言动作模型成为新焦点 其本质是一种更直白干净的端到端架构 取消了复杂的3D感知任务 借鉴视觉语言模型的通用泛化能力 提供解决极端案例的可能性 [1] 技术发展现状 - 自动驾驶视觉语言动作模型技术栈尚未收敛 多种算法如雨后春笋般涌现 包括模块化架构和一体化架构等不同范式 [2] - 行业面临技术栈多样化带来的入门困难 论文数量繁多且知识碎片化 缺乏高质量文档和系统实战指导 从理论到实践的过渡存在挑战 [2] 课程体系设计 - 课程采用即时学习理念 通过通俗易懂的语言和案例帮助学员快速掌握核心技术栈 [3] - 构建领域框架提升研究能力 帮助学员梳理研究发展脉络 掌握核心框架 学会论文分类和创新点提取 [4] - 理论结合实践完成闭环学习 配备实战环节实现从理论到实践的完整过渡 [5] 课程内容架构 - 第一章概述视觉语言动作模型算法概念及发展历史 详细介绍开源基准测试和常见评测指标 [14][15] - 第二章聚焦视觉 语言 动作三大模块的基础知识 并扩展大模型部署使用内容 以Qwen 2.5VL-72为例讲解本地部署 [16][17] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典算法 包括DriveGPT4 TS-VLM DynRsl-VLM SENNA等 重点分析算法动机和网络结构 [18][19] - 第四章深入模块化与一体化视觉语言动作模型 涵盖BEV感知 动静态检测 占用网络 轨迹预测 序列建模 模态对齐 动作解码器 RAG 思维链 监督微调 强化学习 混合专家模型等技术要点 [20][21] - 第五章专注推理增强视觉语言动作模型子领域 讲解思维链 记忆体 工具调用等推理模块 分析长时序规划和因果解释能力 [23][24] - 第六章设置大作业实践 基于ms-swift框架开展自定义数据集训练和模型微调 提供可修改优化的演示代码 [26] 实战案例配置 - 选用华科与小米最新提出的ReCogDrive作为第四章实战案例 包含预训练 模仿学习训练和强化学习训练三阶段 涵盖GRPO和扩散模型轨迹输出等技术栈 [22] - 选用清华AIR与博世提出的Impromptu VLA作为第五章实战案例 基于开源Qwen2.5 VL进行数据集制作 训练和推理 [24] 师资与学术资源 - 教学团队来自清华大学和QS30高校 在ICCV IROS EMNLP等顶级会议发表多篇论文 具备多模态大模型与自动驾驶研发经验 [27] - 课程覆盖多项前沿研究成果 包括慕尼黑工大OpenDriveVLA 上海交大DriveMoE 博世DiffVLA UC Berkeley S4-Driver 华科ORION 阿里FutureSightDrive UCLA AutoVLA 中科院Drive-R1等 [29][30] 教学安排要求 - 课程于10月20日开课 预计两个半月完成 采用离线视频教学配合VIP群答疑和三次线上答疑 [32] - 学员需自备4090及以上算力GPU 具备自动驾驶基础 Transformer大模型 强化学习 BEV感知等技术背景 熟悉Python和PyTorch开发语言 [31]
小鹏&理想全力攻坚的VLA路线,到底都有哪些研究方向?
自动驾驶之心· 2025-09-18 07:33
技术趋势分析 - 端到端与视觉语言动作模型标志着智能驾驶从规则驱动向数据驱动的根本性转变 [1] - 端到端模型虽能打通上下游视角,但在处理复杂困难场景时仍受限制,量产模型迭代陷入无限处理极端案例的循环 [1] - 视觉语言动作模型可视为一种更直白干净的端到端方法,取消了复杂的3D感知任务,凭借更强大的通用泛化能力为解决极端案例提供了可能性 [1] - 自动驾驶视觉语言动作模型技术栈尚未收敛,一系列算法如雨后春笋般出现 [2] 课程核心价值 - 课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例帮助学员短时间内掌握核心技术栈 [3] - 课程帮助学员梳理自动驾驶视觉语言动作模型的研究发展脉络,掌握领域核心框架,学会将论文分类并提取创新点 [4] - 课程配有实战环节,完成从理论到实践的完整闭环 [5] - 课程涵盖视觉感知、语言模块、动作模块及大模型前沿技术,包括检索增强生成、思维链、强化学习、混合专家模型等广泛技术栈 [2] 课程内容架构 - 第一章概述自动驾驶视觉语言动作模型算法概念及发展历史,介绍开源基准和常见评测指标 [9][10] - 第二章讲解视觉、语言、动作三个模块的基础知识,以及大模型与自动驾驶视觉语言动作模型的结合,包括以Qwen 2.5VL-72为例的开源大模型部署使用 [11][12] - 第三章讲解作为自动驾驶解释器的视觉语言模型经典及最新算法,包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA等算法的动机、网络结构及核心 [13][14] - 第四章聚焦模块化与一体化视觉语言动作模型,讲解视觉感知、语言模型、动作模块的基础知识及检索增强生成、思维链、监督微调、强化学习、混合专家模型等技术 [15][16] - 第四章实战代码选取华科和小米最新提出的ReCogDrive,涵盖预训练、模仿学习训练和强化学习训练三个阶段的主流范式 [17] - 第五章聚焦推理增强视觉语言动作模型子领域,讲解长思维链推理、记忆和交互等趋势 [18][19] - 第五章实战代码选取清华AIR和博世提出的Impromptu视觉语言动作模型,基于开源Qwen2.5 VL进行数据集制作、训练和推理 [19] - 第六章大作业基于ms-swift框架,从网络构建开始,自定义数据集和加载模型,开启训练任务并进行微调 [21] 学术前沿覆盖 - 课程覆盖慕尼黑工大提出的OpenDriveVLA、上海交通大学提出的DriveMoE、博世和清华AIR提出的DiffVLA、UC Berkeley和Waymo中稿CVPR2025的S4-Driver等前沿算法 [24] - 课程涵盖华科&小米 ICCV2025中稿的ORION、阿里&西交团队提出的FutureSightDrive、UCLA提出的AutoVLA、中科院和华为诺亚提出的Drive-R1等最新研究 [25] 教学团队与安排 - 讲师团队包括清华大学硕士生、QS30高校博士在读研究人员,在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表多篇论文,具备多模态感知、自动驾驶视觉语言动作模型、大模型Agent等前沿算法预研经验 [22] - 课程于10月20日开课,预计两个半月结课,采用离线视频教学结合VIP群内答疑及三次线上答疑的模式 [27]
自动驾驶中有“纯血VLA"吗?盘点自动驾驶VLM到底能起到哪些作用~
自动驾驶之心· 2025-09-07 00:05
视觉语言自动驾驶模型技术实现 - 模型支持不同数量相机输入 无需明确指定相机数量[2] - 轨迹输出采用文本形式 通过Prompt限制为XY坐标格式[4] - 输出坐标为车辆坐标系相对值 原点为(0,0) 非图像坐标[6] - 使用Python编程进行轨迹格式规范化处理 确保输出符合预期[8] - 通过JSON格式和关键词约束优化未经训练模型的输出效果[9] 数据集构建与处理 - 遇到坐标异常问题 连续多帧坐标相同后出现突变[14] - 不同数据集存在坐标格式差异 包括经纬度与相对坐标[14] - 通过规则化方法剔除不合理轨迹数据[14] - 统一转换为自车坐标系下的相对位移进行数据对齐[18] - 输入为图像和前1.5秒轨迹点 输出未来5秒轨迹点[20] 模型训练与性能 - 经过数据训练后模型输出格式符合性显著提升[8] - 通过QA训练获得多模态轨迹预测和场景理解能力[11] - 具备动态物体轨迹预测能力 包括车辆行人运动预测[11] - 新增端到端预测任务确保数据完整性[20] 社区资源与技术覆盖 - 知识星球涵盖40+技术方向包括多模态大模型和端到端自动驾驶[22] - 社区成员来自头部自驾公司和高校实验室 超4000人规模[24] - 提供近40个技术路线图和学习入门路线[24] - 包含自动驾驶数据集汇总与仿真工具资源[27] - 建立与多家自动驾驶公司的岗位内推机制[29]
端到端VLA的起点:聊聊大语言模型和CLIP~
自动驾驶之心· 2025-08-19 15:20
大语言模型技术发展 - 大语言模型近五年发展迅速,Transformer架构是核心技术基础 [3][5][7] - Transformer核心模块包括注意力机制和多头注意力,通过8个head增强编解码能力 [11][12] - 位置编码采用正弦/余弦函数实现顺序表征,公式为PE(pos,2i)=sin(pos/10000^(2i/d_model)) [9][13] - BPE分词算法通过合并高频字符逐步构建词表,流程包括统计频次、迭代合并等步骤 [8][13] 视觉与语言模型对齐技术 - CLIP是视觉与大模型对齐的典型代表,实现跨模态特征匹配 [18] - 多模态技术栈涵盖BEV感知、扩散模型、强化学习等方向 [48] - VLA(Vision-Language-Action)成为自动驾驶前沿方向,整合VLM、BEV和强化学习技术 [50] 端到端自动驾驶课程体系 课程结构 - 第一章概述端到端发展史,对比模块化与端到端范式差异 [40] - 第二章重点讲解大语言模型、BEV感知、扩散模型等关键技术 [41][48] - 第三章分析二段式端到端方案,涵盖PLUTO、CarPlanner等经典算法 [42] - 第四章深入一段式端到端,包括UniAD、DiffusionDrive等前沿工作 [43][47] - 第五章设置RLHF微调实战,强化VLA技术迁移能力 [52] 技术亮点 - 覆盖CVPR'25最新成果CarPlanner和AAAI'25世界模型Drive-OccWorld [42][45] - 实战项目包括Diffusion Planner和ORION开源框架复现 [47][50] - 课程目标使学员达到1年经验算法工程师水平,掌握40-70K岗位核心技术 [31][57] 行业应用与人才需求 - VLA算法专家岗位薪资达40-70K-15薪,需求集中在3-5年经验硕士 [31] - 技术栈要求涵盖多模态大模型、BEV感知、模型量化部署等方向 [34][48] - 主机厂加速布局端到端量产方案,推动世界模型、扩散模型等技术落地 [26][50]
自动驾驶秋招交流群成立了!
自动驾驶之心· 2025-08-19 07:32
技术发展趋势 - 自动驾驶技术栈呈现趋同态势 从过去几十个方向算法需求转向统一方案如one model、VLM和VLA [1] - 技术方案统一化实际形成更高行业技术壁垒 [1] 行业社群建设 - 建立综合型平台汇集全行业人才 通过社群方式促进产业人才共同成长 [1] - 社群内容覆盖相关产业讨论、公司分析、产品研发及求职跳槽等专业领域 [1] - 提供行业社交网络构建渠道 帮助成员获取产业第一手信息 [1]
车企、科技企业VLA研发进展
中国汽车报网· 2025-08-13 09:33
理想汽车 - 理想i8核心亮点为VLA"司机大模型",是智驾领域继端到端+VLM后的新进展 [1] - VLA模块全新设计,空间编码器结合语言模型与逻辑推理优化驾驶决策,Diffusion模型预测轨迹 [1] - VLA推理帧率10赫兹,较VLM的3赫兹提升3倍多 [1] 小鹏汽车 - 小鹏G7 Ultra版明确VLA和VLM上车时间表:2025年9月VLA推送,11月VLM升级,12月实现智能学习个性化推荐 [2] - 车型搭载3颗自研图灵AI芯片,综合算力2250TOPS,居量产车领先水平 [2] 奇瑞汽车 - 2025年通过猎鹰900智驾系统将VLA与世界模型引入燃油车,实现"油电同智" [3] - 自研VLA模型融合视觉感知、语言理解与动作执行,训练数据2000万公里,覆盖5000种交通场景 [3] - 城区复杂路况中非标交通信号识别准确率92%,较传统系统提升37% [3] 吉利汽车 - 布局VLA技术,构建泛世界模型体系,千里浩瀚系统采用"双端到端模型"设计 [4] - 系统搭载双英伟达Thor芯片,总算力1400TOPS,40余个感知单元可探测300米外0.75米目标 [4] 元戎启行 - 三季度将有5款车型搭载VLA模型,去年6月已开始开发,进度领先 [5] - VLA模型主打防御性驾驶,含空间语义理解、异形障碍物识别等四大功能 [5] - 模型率先适配NVIDIA Thor芯片,后续将优化适配更多平台 [5] 行业技术趋势 - VLA技术成为车企智驾竞争焦点,涉及推理帧率提升、多模态融合、场景覆盖等维度 [1][3][5] - 高算力芯片(如2250TOPS图灵、1400TOPS Thor)支撑复杂模型部署 [2][4][5] - 燃油车与电动车同步推进VLA应用,打破"油电"智能化界限 [3]