OpenDriveVLA - 财报，业绩电话会，研报，新闻

OpenDriveVLA

搜索文档

自动驾驶之心· 2025-10-16 07:33

自动驾驶VLA行业趋势 - 自动驾驶VLA是学术界和工业界在端到端之后聚焦的核心方向，提供了类人思考能力并通过思维链形式展现决策过程，以实现更可靠和安全的自动驾驶[1] - 行业将自动驾驶VLA划分为三个子领域：模块化VLA、一体化VLA和推理增强VLA[1] - 传统的BEV感知、车道线、Occupancy等方向相对成熟，学术界和工业界关注度逐渐下降，自动驾驶VLA成为各家企业急需攻克的方案[4] - 主流自动驾驶企业，包括智驾方案供应商和车企，均在发力自研自动驾驶VLA[4] 自动驾驶VLA技术核心 - 自动驾驶VLA涉及视觉感知、大语言模型、Action建模、大模型部署、数据集制作等核心内容[6] - 最前沿算法包括CoT、MoE、RAG、强化学习[6] - 模块化VLA强调多阶段pipeline（感知→语言→规划→控制），语言模型为规划决策提供信息[16] - 一体化VLA直接连接动作解码器，实现感知→控制的端到端映射，通过单次前向传播将传感器输入映射为控制动作[16] - 推理增强VLA新增推理模块（如Chain-of-Thought、记忆体、工具调用），同步输出控制信号和自然语言解释，支持长时序规划和因果解释[17] 课程内容与结构 - 课程第一章介绍VLA算法概念、发展历史、开源BenchMark和常见评测指标[12][13] - 第二章讲解VLA算法基础，涵盖Vision、Language、Action三个模块基础知识及大模型结合，并以Qwen 2.5VL-72为例讲解开源大模型部署[14] - 第三章讲解VLM作为自动驾驶解释器的经典及最新算法，包括DriveGPT4、TS-VLM、DynRsl-VLM、SENNA，重点分析算法动机、网络结构和核心[15] - 第四章聚焦模块化与一体化VLA，配套实战代码学习选取华科和小米最新提出的ReCogDrive，涵盖预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等技术栈[16] - 第五章聚焦推理增强VLA，讲解ORION、OpenDriveVLA、DriveMoE、DiffVLA、S4-Driver、FutureSightDrive、AutoVLA、Drive-R1等算法，并配套清华AIR和博世提出的Impromptu VLA实战代码[17][18][19][23] - 第六章设置大作业，要求学员基于ms-swift框架自定义数据集和加载模型，进行训练任务微调，并提供V-L-A各部分代码解读[20] 行业人才培养 - 课程由清华大学教研团队联合开展，旨在推动自动驾驶VLA在学术界和工业界的发展[6][22] - 讲师团队包括在ICCV/IROS/EMNLP/Nature Communications等顶级会议发表论文的清华大学硕士生、QS30高校博士在读研究员，具备丰富的自动驾驶、大模型研发和实战经验[8][9] - 学员需自备GPU，推荐算力在4090及以上，并具备自动驾驶领域基础、transformer大模型、强化学习、BEV感知等技术概念，以及概率论、线性代数、Python和PyTorch基础[24] - 课程为国内首个自动驾驶VLA进阶实战教程，预计两个半月结课，采用离线视频教学配合VIP群内答疑及三次线上答疑的模式[22][23]

自动驾驶之心· 2025-09-02 07:32

行业技术发展趋势 - 2025年VLA（Vision-Language-Action）成为行业新焦点，但技术路径出现明显分歧，部分企业积极推广而部分头部团队选择回避 [1][5][6] - 相较于2023-2024年端到端技术达成行业共识的局面，VLA技术路线呈现"分歧中的探索"态势 [5][6] - 技术切换期被视为占领用户心智和证明研发优势的关键窗口 [4] 企业战略布局差异 - 理想汽车通过VLA巩固端到端技术红利带来的领先优势 [4] - 元戎启行借助VLA提升辅助驾驶系统性能上限 [4] - 小鹏汽车将具身智能领域积累的VLA技术迁移至辅助驾驶系统，并采用自研高算力芯片解决实时性问题 [4][22] - 华为ADS明确主张WA（World Model + Action）为自动驾驶终极方案，回避VLA路径 [5] - 蔚来在低速场景应用世界模型但对外宣传保持低调 [5] - 地平线否认其HSD系统属于VLA，坚持VA（Vision-Action）技术路线 [23] VLA技术原理与应用 - VLA通过视觉模块感知环境、语言模块表述任务、动作模块执行驾驶行为，实现感知-决策一体化 [9] - 技术优势在于结合端到端的性能与语言的可解释性，理想状态下可映射人类驾驶本能 [10] - Wayve的LINGO系列实现边驾驶边用自然语言解释决策，LINGO-2支持实时语言指令调整行为 [12] - OpenDriveVLA融合2D/3D视觉token与语言生成控制轨迹，在Nuscenes数据集取得最优结果 [14][16] - 谷歌Deepmind的RT系列将互联网视觉-语言知识迁移至机器人控制，提升泛化能力 [17][18] 技术挑战与局限性 - 自然语言存在模糊性与不完备性，例如"慢一点"等指令缺乏精确动作约束 [19] - 语言-动作不对称性问题导致监督学习存在噪声，语言主要在任务级别有效而非细粒度控制 [19] - 多模态Transformer推理开销巨大，OpenVLA模型约7B参数需15GB显存且运行频率仅6Hz，低于行业10Hz标准 [21] - 实际部署中多用于上层任务分配，轨迹输出仍由传统模型执行并需兜底机制 [23] 替代技术路径发展 - VA（Vision-Action）方案通过内隐世界模型实现环境状态向量化表示，华为与地平线采用此路径 [23] - 地平线HSD系统通过深度神经网络实现决策统一性，在不同场景下保持自适应行为 [25] - 采用平衡数据分布并筛选优化人类驾驶数据，使决策更符合直觉 [25] - 坚持模块最小化架构，屏蔽激光雷达输入以避免感知依赖，保持系统简洁性与可维护性 [28] - 纯视觉版本结合软硬件一体方案具备成本优势 [31] 行业本质问题与未来方向 - 辅助驾驶核心问题仍是缺乏对世界的深度理解能力 [33] - 语言作为新输入维度类似激光雷达，提供抽象能力但非终极解决方案 [33] - 行业面临选择新道路或深化现有路径的战略抉择，不同技术路线均存在发展机会 [34]

自动驾驶VLA：OpenDriveVLA、AutoVLA

自动驾驶之心· 2025-08-18 09:32

OpenDriveVLA技术分析 - 核心目标是解决标准VLM在处理动态三维驾驶环境时的"模态鸿沟"问题，通过结构化方式让VLM理解3D世界[23] - 采用分层视觉Token提取方法，将BEV特征提炼为Agent Token、Map Token和Scene Token三种结构化视觉Token[25] - 多阶段训练范式包括特征对齐、指令微调、交互建模和轨迹规划微调四个阶段[25] - 在nuScenes开环规划基准测试上取得SOTA性能，平均L2误差0.33米，碰撞率0.10%[10] - 优势在于3D空间接地能力强，可解释性好，能有效抑制空间幻觉[26] AutoVLA技术分析 - 核心哲学是将驾驶任务完全融入VLM的原生工作方式，从"场景解说员"转变为"驾驶决策者"[26] - 创新性提出物理动作Token化，通过K-Disk聚类算法构建包含2048个离散动作基元的动作代码本[29] - 采用双模式思维与监督微调(SFT)结合组相对策略优化(GRPO)算法进行强化学习微调(RFT)[28][30] - 在nuPlan、Waymo和CARLA等多个基准测试上取得顶级性能[20] - 优势在于端到端整合度高，决策策略可通过RL持续优化，性能上限高[32] 技术对比 - OpenDriveVLA专注于感知-语言对齐，AutoVLA专注于语言-决策一体化[32] - OpenDriveVLA采用分层视觉Token提取，AutoVLA依赖模型自身注意力处理视觉信息[32] - OpenDriveVLA自回归生成文本形式坐标点，AutoVLA生成离散动作Token[32] - OpenDriveVLA采用多阶段监督学习，AutoVLA采用两阶段学习(SFT+RFT)[32] - 未来理想模型可能是两者的结合体，采用OpenDriveVLA的结构化感知前端和AutoVLA的动作Token化强化学习后端[34] 行业影响 - 两篇论文共同推动了VLA在自动驾驶领域的发展，描绘了更智能、更可靠的端到端自动驾驶系统前景[33] - OpenDriveVLA为建造摩天大楼打下坚实的地基，AutoVLA则是在坚实地基之上构建摩天大楼本身[36] - 相关技术涉及大模型、VLA、端到端自动驾驶、数据闭环、BEV感知等30+自动驾驶技术栈[38]

Visual-Language-Action (VLA) Model

Large Language Model (LLM)

Autonomous Driving

OpenDriveVLA

AutoVLA

Visual-Language-Action (VLA) Model

Large Language Model (LLM)

自动驾驶之心· 2025-06-22 22:09

自动驾驶VLA模型研究进展 - 端到端自动驾驶已成为主流范式视觉-语言-动作(VLA)方法伴随具身智能兴起相关论文横扫前沿领域 [2] - 主机厂如理想文远知行小米小鹏等都在大力尝试VLA技术量产落地 [2] - 学术界和工业界涌现AutoVLA ReCogDrive等优秀工作关注自适应推理强化微调等方向 [3][7][9] 关键技术突破 - AutoVLA统一推理和动作生成采用双重思维模式(快速/慢速思维)和GRPO强化微调方法 [3][4] - ReCogDrive采用三阶段训练框架集成VLM与扩散规划器 PDMS达89.6创SOTA [7][9] - DriveMoE引入混合专家架构包含场景专用视觉MoE和技能专用动作MoE 处理罕见驾驶行为 [19][21][22] - OpenDriveVLA通过分层视觉语言对齐和代理-环境-自我交互过程实现轨迹规划SOTA [28][30][32] 数据集与基准 - Impromptu VLA数据集含8万+视频片段覆盖4类非结构化场景显著提升模型性能 [14][18] - DriveAction基准含16185个QA对直接关联驾驶操作支持全面评估VLA模型 [23][24] - 行业亟需更多高质量VLA基准当前工作多基于nuScenes Bench2Drive等有限数据 [47] 行业应用趋势 - VLA模型输出形式向多模轨迹生成发展文本输出逐渐被替代 [47] - 大规模自动驾驶预训练模型仍欠缺多数工作依赖Qwen等开源模型 [47] - 时序处理能力待加强需适配车端实时性要求 [47] - 小米博世清华等机构积极布局VLA研发形成产学研协同 [7][14][19][28] 性能对比 - AutoVLA在nuPlan等基准上PDMS达92.12 碰撞率低于1% [5] - ReCogDrive在NAVSIM基准PDMS达89.6 超越前SOTA 5.6分 [9][10] - DriveMoE在Bench2Drive紧急刹车等场景能力提升显著均值达47.91% [22] - OpenDriveVLA-7B在nuScenes开环规划L2误差仅0.66m 优于GPT-3.5等基线 [31]