Workflow
自动驾驶之心
icon
搜索文档
英伟达用千万Clip搞定了反事实推理VLA!安全指标提升了20%......
自动驾驶之心· 2026-01-05 11:33
文章核心观点 - 英伟达、UCLA和斯坦福的研究团队提出了一种名为反事实视觉-语言-动作模型的新型端到端自动驾驶框架,该框架通过引入自反思和反事实推理能力,使模型能够在执行动作前质疑并修正其规划,从而显著提升轨迹准确性、安全性和计算效率 [2][3][10] 技术背景与现有问题 - 现有增强推理能力的视觉-语言-动作模型主要通过生成中间语言轨迹来提升可解释性,但其推理是描述性的,仅描述观测内容和预期动作,缺乏在执行前验证自身规划安全性的自反思循环 [6] - 现有具身视觉-语言模型的自修正能力通常在动作失败后触发,或依赖外部世界模型进行评估,无法让模型在执行前主动推理自身动作的潜在后果 [7] - 实现VLA模型内部的自反思反事实推理面临两大挑战:缺乏动作到语言的映射机制,以及标准训练流程缺乏教导模型回答反事实问题的数据 [7] CF-VLA模型核心机制 - 模型采用“元动作→反事实推理→更新后元动作→轨迹”的自反思循环,首先生成时间分段的元动作概括驾驶意图,然后结合视觉环境进行反事实推理,模拟潜在结果并修正不安全规划,最后生成最终轨迹 [10][19] - 模型引入“时间分段元动作”作为中间表示,从纵向、横向和车道级三个正交维度描述驾驶行为,覆盖6.4秒规划时域,实现了动作与语言的对齐,便于语言骨干网络进行推理 [23][24] - 模型具备自适应推理能力,通过统一指令让模型隐式学习何时需要启动反事实推理,仅在复杂、高风险场景中进行深入思考,在简单场景中节省计算资源 [21][48] 数据流水线与训练方法 - 研究设计了“rollout-筛选-标注”数据流水线,用于自动构建高质量的反事实训练数据:首先对基础VLA模型进行rollout生成候选轨迹;然后通过比较自由生成与预填充真实元动作下的轨迹质量差异,自动筛选出元动作成为性能瓶颈的高价值场景;最后使用高性能教师模型为筛选出的场景生成反事实推理轨迹 [11][12][26] - 训练采用混合数据集分阶段进行:首先在纯轨迹数据集上训练基础模型;然后在元动作标注数据集上微调;最后在混合了纯轨迹、元动作和反事实推理数据的数据集上微调,得到完整的CF-VLA模型 [33] - 该流水线支持多轮训练,训练后的CF-VLA模型可重新接入流水线生成新一轮反事实数据,实现性能的持续自改进 [34] 实验设置与评估指标 - 实验在大规模内部数据集上进行,该数据集包含来自25个国家的80,000小时人类驾驶数据 [37] - 使用的训练数据量包括:纯轨迹数据集约1160万个20秒视频片段;元动作训练集包含43.3万个20秒片段和80.1万个8.4秒样本;反事实推理数据集通常包含20万个样本 [8][39] - 评估从三个维度进行:轨迹准确率、安全特性以及推理质量与计算开销 [39] 主要实验结果 - 在轨迹准确率上,CF-VLA相比纯轨迹模型提升高达17.6%,相比非反思的元动作基线模型提升9% [14][47] - 在安全指标上,CF-VLA将碰撞率降低20.5%,偏离道路率降低14.7% [3][14] - 模型展现出清晰性能阶梯:纯轨迹模型 < 元动作轨迹模型 < 语言-元动作轨迹模型 < CF-VLA [47] - 多轮训练能进一步提升性能并优化计算效率,例如第二轮训练后,有路线信息的CF-VLA模型推理率降低近一半,平均输出长度缩短,同时保持了性能提升 [45][47] 消融实验关键发现 - 元动作的引入至关重要,预填充真实元动作可使轨迹误差几乎减半,表明剩余误差主要来自元动作预测不准,这为直接对元动作进行反事实推理提供了依据 [50] - 自适应推理机制有效:强制全程推理的模型MinADE升高22%,修正后IOU下降;强制不推理的模型在复杂场景表现不佳;而自适应推理模型取得了最佳权衡 [51] - 数据筛选流水线是关键:仅为高价值场景生成反事实数据的模型,其性能优于为全数据集生成反事实数据的模型,后者输出长度更长、推理率更高但核心指标未提升甚至略有下降,表明反事实监督需有针对性 [52] 定性结果与案例 - 可视化案例表明,CF-VLA能识别初始规划与场景的不匹配并进行针对性修正,例如在并道场景提前变道避让拥堵、在转向场景生成更果断的动作、在行人场景减速等待,从而提升安全性、交通效率和语义一致性 [54][57] 行业意义与趋势 - 反事实推理和自反思能力是当前自动驾驶VLA模型研究的热点,也是行业未来进化的趋势 [2] - 该工作将推理从一次性描述升级为因果自修正信号,为实现“三思而后行”的自反思自动驾驶智能体迈出了重要一步 [3][56]
78ms的VLA推理!浪潮信息开源自驾加速计算框架,大幅降低推理时延
自动驾驶之心· 2026-01-05 11:33
行业趋势:VLA大模型成为高阶自动驾驶关键方向 - 随着高阶自动驾驶迈向“端到端”阶段,VLA(视觉-语言-动作)大模型正成为自动驾驶的最佳模型方案,它通过统一建模视觉感知、语义理解与逻辑决策,使系统具备类似人类的语义理解与推理能力,是突破自动驾驶“长尾场景”挑战的关键 [2] - 然而,VLA大模型参数规模已增长至数十亿甚至百亿级,多模态数据在异构算力间流转处理时,模型延时普遍超过100ms,难以满足实时性需求,亟需软硬件系统优化来解决车载端异构计算协同问题 [2][5] 技术挑战:VLA大模型车端部署面临三大瓶颈 - **计算挑战**:模型参数从千万级跃迁至数十亿甚至百亿级,对算力、存储带宽与系统协同效率提出空前挑战;其推理过程呈现多阶段强依赖特征,时延呈串行累积;Transformer架构的自注意力计算复杂度随序列长度指数增长,且自回归生成导致动作指令必须串行产出,限制了硬件并行度;数十亿级参数量导致芯片频繁访存,受限于端侧内存带宽,计算单元常因“等数据”而空转 [5][6] - **通信挑战**:与传统模块化系统相比,VLA大模型对数据通信的压力呈指数级增长,多模态特征、高清图像及中间张量频繁在不同计算单元间流转;端到端闭环对时延极为敏感,传统基于中间件的通信机制(如多次拷贝、序列化与协议栈开销)成为制约实时性的核心瓶颈 [6] - **调度挑战**:VLA大模型的执行过程具有明显的异构性与阶段性特征,不同子任务在实时性、计算量与优先级上差异显著;传统以线程或进程为粒度的粗放式调度方式,难以应对多任务并发、强优先级约束与异构算力协同的需求,容易导致关键任务阻塞、算力资源空转或端到端时延不可预测 [7] 解决方案:AutoDRRT 3.0计算加速框架 - 浪潮信息研究团队开源了面向VLA大模型的自动驾驶计算加速框架AutoDRRT 3.0,该框架基于其自动驾驶车载计算平台EIS400,通过在计算效率、通信延时、任务调度三大维度的创新重构,旨在解决VLA大模型的上车挑战 [3][8] - 该框架面向2D+CNN小模型、BEV+Transformer大模型、VLA大模型等不同算法进行了针对性的算法内核与架构升级,汽车厂商、软件平台商和中间件软件开发商可免费下载使用 [3] 技术突破一:计算革新实现全闭环加速 - 通过并行解码、视觉剪枝、算子融合与混合量化等技术,对VLA推理链路进行重构,实现了从“视觉输入”到“动作输出”的全闭环加速 [9][12] - **并行解码**:将单步预测演进为“时域序列预测”,在一个推理周期内并行产出未来多步动作指令,消除了逐个Token产出的逻辑依赖,释放了异构硬件的并行计算潜能 [12] - **视觉剪枝**:引入面向自动驾驶场景的视觉剪枝技术,通过衡量特征向量间的余弦距离,在无须模型微调的前提下,实现了对冗余视觉信息的极高比例压缩,解决了传统注意力剪枝可能导致关键感知目标被误剔除的风险 [12] - **算子融合与混合量化**:实施异构精度策略,对视觉Transformer实施INT8 PTQ量化以提升吞吐,对语言内核采用W4A16量化以突破访存带宽瓶颈;同时进行深度算子融合,并将部分高频操作前移至预处理阶段,消除冗余计算 [12] - 通过上述优化,成功将10亿级参数VLA大模型的端到端推理时延从8000ms降低到78ms,其中并行解码模块将时延从2000ms降低至300ms,视觉剪枝模块将时延从170ms降低至130ms,整体性能提升102倍,这是业内首个将VLA大模型端到端推理时延稳定压缩至100ms以内的开源计算加速框架 [13] 技术突破二:通信革新构建高性能机制 - 从底层重构了面向异构计算单元(CPU-CPU、CPU-GPU、GPU-GPU)的统一高性能通信机制,构建了“轻量调度+极速流转”的混合模式 [14][16] - “轻量调度模式”专注于微秒级的逻辑信令通路,用于精细调度与同步唤醒;“极速模式”为大数据提供共享内存,从根本上革除了传统DDS协议中的序列化损耗与冗余拷贝 [16] - 通过地址映射实现CPU与GPU之间的数据直达,在GPU之间构建以共享内存为中枢的高速流转机制,实现了以“地址共享替代数据搬运”的“零拷贝”闭环 [16] - 在1MB至16MB的负载测试中,AutoDRRT 3.0展现出代差优势:在16MB大数据流转时,其时延表现较FastDDS提升了4至5.6倍,较CycloneDDS最高提升近35倍,实现了大数据负载下的微秒级确定性响应 [17] 技术突破三:调度革新实现异构算力统一编排 - 构建了一套面向多计算单元(CPU、GPU、AI加速单元)的异构算力统一调度机制,进行精细化管理,避免算力空转与链路阻塞 [18][20] - 在CPU侧,深度融合优先级与时间片轮转等调度策略,并结合精细化绑核控制,确保逻辑控制与关键任务的实时性 [18] - 在GPU侧,引入“优先级+流水线+全并行”的一体化调度架构:通过模型级优先级管理保障关键任务算力;借助异步流水线调度实现数据处理与模型推理的重叠执行;协同GPU与专用加速单元进行并行执行,最大化整体吞吐 [18][20] - 实测数据显示,该调度框架使逻辑响应时延降低31%,核心感知模型推理时延降低30%,VLA推理链路进一步压缩28%,端到端时延稳定性显著提升,推理时延由108ms缩减至78ms [21] 生态合作与商业化应用 - AutoDRRT已率先实现了对地平线征程6(J6)平台的深度原生支持,打通了底层芯片异构算力到上层通用软件栈的全链路,完成了ROS + Autoware.ai 以及 ROS2 + Autoware.universe 的全栈原生适配,成为行业首个适配该平台的开源自动驾驶框架 [21] - 基于J6域控+AutoDRRT,客户可实现方案的“开箱即用”与快速验证,覆盖无人配送与环卫小车等多元场景,助力无人车产品缩短研发周期,抢占商业化落地先机 [21] - 该框架为业界提供了首个面向VLA大模型、可在智驾域控平台运行的开源加速框架,验证了VLA大模型在车端实时闭环运行的工程可行性,为自动驾驶从“端到端感知”迈向“全场景通用智能”提供了系统基础 [23]
帝国理工VLA综述:从世界模型到VLA,如何重构自动驾驶(T-ITS)
自动驾驶之心· 2026-01-05 08:35
文章核心观点 - 一篇由帝国理工学院团队撰写、发表于IEEE T-ITS的综述文章,系统性地回顾了截至2025年9月的77篇前沿论文,为自动驾驶领域大模型(特别是视觉语言模型VLM)的技术发展、应用与挑战提供了详尽的学习路线图[2] - 文章指出自动驾驶技术范式正从传统的“感知-规划”分离模式,向Vision-Language-Action端到端以及生成式世界模型演进,大模型正在重构整个技术栈[2][14] - 综述不仅总结了当前三大技术趋势(端到端VLA、世界模型、模块化集成),还以工程落地视角指出了推理延迟、幻觉和计算权衡三大核心挑战,并提出了未来四大研究方向[9][13][17] 技术范式演进与当前趋势 - **端到端VLA的崛起**:技术趋势正从简单的多模态融合,转向将视觉与语言作为协同推理流,直接输出规划轨迹的VLA设计[10] - **世界模型成为数据引擎核心**:工业界押注世界模型的背后,是利用生成式AI解决Corner Case的野心,其被视为实现“数据飞轮”的关键技术[6][11] - **模块化感知的重塑**:即使在端到端架构备受推崇的当下,模块化方案在大模型加持下焕发新生,例如利用VLM进行语义异常检测和长尾目标识别[7] 关键技术架构与代表工作 - **VLA代表模型**:深入复盘了LMDrive、AlphaDrive、OpenDriveVLA等工作,这些模型展示了通过语言指令实现闭环控制,并利用思维链解决长尾场景中的因果推理难题[10] - **世界模型前沿案例**:重点拆解了Gaia-1、DriveDreamer-2以及GenAD,这些基于潜在扩散模型的世界模型不仅能生成逼真的驾驶视频,还能保持长时间的物理一致性[11] - **模块化感知应用**:展示了Talk2BEV、ChatBEV等利用VLM进行语义异常检测的潜力[7] 工程落地的主要挑战与解法 - **推理延迟挑战**:像DriVLMe这样的模型推理可能需要数秒,无法满足高频控制所需的毫秒级响应[9][12] - **延迟优化解法**:探讨了视觉Token压缩(如Senna-VLM的Driving Vision Adapter)、思维链剪枝以及针对NVIDIA OrinX芯片的量化优化策略(如PEFT/LoRA)[12] - **幻觉问题挑战**:VLM可能会生成不存在的车辆或错误理解交通规则,这是安全的重大隐患[15] - **幻觉问题解法**:引入Nullu等“幻觉子空间投影”技术,以及基于规则的安全过滤器[15] - **计算权衡架构**:探讨了“快慢系统”架构,即利用云端大模型进行长时序推理与Corner Case处理,配合车端小模型进行实时高频控制[13] 关键基础设施与资源 - **数据集演进**:重点分析了NuScenes-QA、DriveLM等专注于驾驶推理与问答的数据集,它们弥补了传统感知数据集在逻辑推理上的短板[16] - **仿真平台应用**:探讨了CARLA、NuPlan等模拟器在VLM闭环评测中的应用,强调了从开环指标向闭环实战迁移的必要性[16] - **详尽的汇总资料**:论文内含9个详细的分类汇总表,系统梳理了该领域的关键信息[14] 未来研究方向 - **标准化评测**:建立统一的VLA安全性与幻觉率评分体系[17] - **端侧轻量化**:研究如何在有限算力(如OrinX芯片)上运行7B+参数的大模型[17] - **多模态对齐**:提升LiDAR点云、视觉与语言在复杂长尾场景下的语义一致性[17] - **法律与伦理**:探索当VLM做出决策时,如何进行归因与定责[17]
突发,小鹏副总裁离职......
自动驾驶之心· 2026-01-04 14:31
公司高层人事变动 - 小鹏汽车产品中心副总裁陈永海已于2025年12月离职,其职务暂由总裁王凤英接替 [2] - 陈永海于2022年1月加入小鹏汽车,曾接替离职的互联网中心副总裁纪宇负责互联网中心,后在小鹏G9上市失利后转而负责产品中心 [2] - 接棒者王凤英于2023年加入小鹏汽车担任总裁,此前在长城汽车任职31年,负责产品、营销、销售及供应链等业务,其加入被视为公司翻身仗成功的重要一环 [2] 公司经营与市场表现 - 小鹏汽车2025年全年汽车交付量为429,445辆,同比增长125.94%,全年目标达成率为122.7% [2] - 公司2025年12月单月交付量为37,508辆,未达到第四季度交付指引 [2] - 小鹏汽车2025年全年交付量在中国新势力车企中排名第二,仅次于零跑汽车的59.7万辆 [2]
为什么蔚来会押注世界模型?
自动驾驶之心· 2026-01-04 09:04
文章核心观点 - 文章核心为一篇关于自动驾驶世界模型进阶实战课程的推广文案,旨在介绍课程内容、讲师背景及学习目标,而非提供具体的行业或公司分析报告 [1][11] - 文章通过介绍蔚来汽车NWM2.0的宣发及行业对世界模型的关注切入,强调世界模型是提升智能驾驶能力上限的关键技术,并指出当前行业存在定义模糊、入门困难等痛点,从而引出该课程的价值 [1] 课程背景与行业关联 - 世界模型被视为智能驾驶真正的上限,其核心是以视频为核心,通过跨模态预测和重建,让系统学习时空和物理规律,解决时空认知问题,这与解决概念认知的语言模型形成对比 [1] - 行业内的AI巨头和自动驾驶公司正积极研发通用世界模型或相关技术,例如李飞飞团队的Marble、Yann LeCun的V-JEPA、DeepMind的Genie,以及在自动驾驶领域常见的视频生成、OCC(Occupancy)生成、激光雷达点云生成等方向 [1] - 许多公司基于开源算法搭建自己的云端或车端世界模型,用于生成长尾数据或进行闭环仿真与评测,部分公司尝试直接基于世界模型赋能车端驾驶能力 [1] 讲师介绍 - 讲师Jason拥有C9本科和QS50高校的博士学位,已发表多篇高水平学术论文(CCF-A论文2篇,CCF-B论文若干) [3] - 现任国内顶级主机厂算法专家,从事端到端自动驾驶、大模型、世界模型等前沿算法的预研和量产工作,并已主持完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的研发和实战经验 [3] 课程内容大纲 - 课程共分为六章,从概述、背景知识到具体模型探讨与实践,最后聚焦工业界应用与求职 [4][6][7][8][9][10] - **第一章:世界模型介绍** 涵盖世界模型与端到端自动驾驶的联系、发展历史、应用案例、不同流派(如纯仿真、仿真+规划、生成传感器输入、生成感知结果)及其在业界解决的问题环节,并介绍相关数据集与评测 [6] - **第二章:世界模型的背景知识** 讲解世界模型所需的技术栈,包括场景表征、Transformer、BEV感知等基础,为后续学习奠定基础,这些内容是当前求职面试的高频技术关键词 [6][7] - **第三章:通用世界模型探讨** 聚焦通用世界模型及近期热门工作,详细讲解Marble、Genie、JEPA、导航世界模型、DriveVLA-W0以及特斯拉ICCV上分享的世界模型模拟器等模型的核心技术与设计理念 [7] - **第四章:基于视频生成的世界模型** 聚焦学术界和工业界研究最多的视频生成类算法,讲解Wayve的GAIA-1 & GAIA-2、上海交通大学的UniScene、商汤的OpenDWM、中科大的InstaDrive等工作,并以商汤开源的OpenDWM进行实战 [8] - **第五章:基于OCC的世界模型** 聚焦占用网络生成类算法,讲解三大论文及一个项目实战,此类方法可扩展至自车轨迹规划,进而实现端到端自动驾驶 [9] - **第六章:世界模型岗位专题** 基于前五章基础,分享工业界应用经验、行业痛点、期望解决的问题以及相关岗位的面试准备与公司关注点 [10] 课程技术细节与覆盖范围 - 课程将详细讲解Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础,以及BEV感知、占用网络、扩散模型、闭环仿真中的NeRF与3DGS、以及其他生成式模型如VAE、GAN和Next Token Prediction等关键技术 [12] - 课程将涉及多项具体研究工作,包括清华的OccWorld、复旦的OccLLaMA、华中科技大学的HERMES以及西安交通大学最新的II-World等 [13] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地,帮助学员真正理解端到端技术,学完后预期能达到具备1年左右经验的世界模型自动驾驶算法工程师水平 [11][14] - 具体学习收获包括:掌握世界模型技术进展(涵盖视频生成、OCC生成等方法)、对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解、能够复现II-World、OpenDWM等主流算法框架、能够将所学应用于项目并设计自己的世界模型,对实习、校招、社招均有助益 [14] - 面向人群需自备算力在RTX 4090及以上的GPU,具备一定的自动驾驶领域基础,熟悉Transformer大模型、扩散模型、BEV感知等基本概念,拥有概率论、线性代数基础以及Python和PyTorch编程能力 [14] 课程安排 - 课程于1月1日开课,预计两个半月结课,采用离线视频教学,提供VIP群内答疑及三次线上答疑,答疑服务截止至2026年12月31日 [15] - 各章节按计划逐步解锁:第一章于12月10日解锁,第二章于1月1日解锁,第三章于1月20日解锁,第四章于2月4日解锁,第五章于2月24日解锁,第六章于3月1日解锁 [16]
智驾的2025:辞旧迎新的一年
自动驾驶之心· 2026-01-04 09:04
2025年自动驾驶行业核心发展脉络 - 2025年是自动驾驶行业承上启下、辞旧迎新的一年,主要围绕“向下普及”和“向上挑战”两条主线展开 [4] - 传统车企如比亚迪、吉利、奇瑞扮演向下普及角色,将高速NOA功能下放到10万+车型,并计划在2026年将城市NOA功能下放到10万+车型 [4] - 新势力及头部智驾供应商负责向上挑战技术上限,秉持一年一代新技术的做法,在端到端之后继续探索新技术 [4] 技术范式演进:从端到端到世界模型 - 端到端技术解决了标准道路场景“好开”的问题,但对罕见高风险Corner Case解决能力有限 [5] - 世界模型是智驾技术从“被动反应”走向“主动思考”的关键分水岭,意味着第三次技术范式演进:从1.0规则式、2.0端到端到3.0生成式智驾 [5] - 2025年,前沿技术辞旧迎新,端到端大规模普及,同时世界模型、VLA实现了从0到1的量产上车 [5] - 小鹏、小米等公司从研究VLA转向世界模型研究,世界模型的热度也延伸至具身智能领域 [5] 世界模型的竞争格局与量产进程 - 世界模型的发展遵循从0到1、再从1到10的量产规律 [6] - 2025年,蔚来在国内首发世界模型量产上车,完成了从0到1最艰难的阶段 [6] - 进入2026年,世界模型将迎来从1到10的性能爆发增长阶段,国内目前蔚来走在从1到10阶段,更多玩家仍在从0到1阶段 [6] - 早期布局世界模型的代表公司包括蔚来、特斯拉、华为,其中蔚来在2024年业内聚焦端到端时已发布世界模型,宣布从“感知驱动”转入“认知驱动” [5] 数据闭环成为研发核心 - 2025年智驾开启“炼丹模式”,数据闭环第一次成为核心中的核心 [6] - 过去几年许多公司的“数据飞轮”更多是营销作用,对云端算力、数据及人才投入不足 [6] - 2025年许多玩家在数据基建上疯狂“补课”,数据闭环及强化学习人才抢手,云端算力成本成为研发投入大头 [6] - 有前瞻性布局的玩家如蔚来已享受到数据基建红利,其较早投入云端数据闭环,并在车端4颗芯片中专设一颗用于数据收集、标注和训练,为其首发世界模型奠定基础 [7] 软硬一体化趋势与自研芯片 - 2025年是软硬一体的大年,蔚来和小鹏实现自研芯片上车,头部智驾供应商地平线、Momenta也走向软硬一体 [7] - 自研芯片不仅为降低成本,更因智驾进入模型时代,软硬深度协同重要性提高,需针对自身算法架构量体裁衣以最大化算力利用率 [7] - 自研芯片可把控芯片量产节奏,避免因供应商交付延迟影响算法上车及新车上市 [7] - 自研芯片存在“外包式自研”与“真自研”之分,蔚来投入大几百人技术团队进行真自研,设计芯片架构,实现深度软硬协同 [8] - 蔚来推出的“神玑NX9031”智驾芯片、“SkyOS·天枢”全域操作系统及“天行智能全主动底盘”为行业提供了明确技术方向 [8] L3牌照发放与行业下半场竞争 - 2025年临近年底L3牌照发放,标志着自动驾驶从上半场(L2+量产)转向下半场(L3、L4)竞争 [8] - 虽然首批L3牌照被部分传统车企申请到,但其L2+能力不足且使用供应商方案,形式大于本质 [9] - 未来真正具备拿到下半场门票的是新势力、华为等挑战前沿技术上限的玩家 [9] - 下半场门票的核心是模型能力,尤其是具备世界模型能力的玩家,如已实现世界模型量产上车的蔚来 [9] 技术价值与未来公司形态 - 智驾技术的终极价值在于解放驾驶者精力和减少交通事故,当前阶段将“减少事故”置于首位 [9] - 智驾进入世界模型阶段,将与全球最前沿的生成式AI技术并驾齐驱 [9] - 在世界模型竞赛中领先的企业,如蔚来,未来将不仅是一家汽车公司,而是一家基于世界模型的AI+硬件+能源生态公司 [10] - 智驾的加速普及由端到端、VLA、世界模型等AI技术突破驱动,也得益于华为、地平线等核心供应商技术的成熟 [9]
超越DriveVLA-W0!DriveLaW:世界模型表征一统生成与规划(华科&小米)
自动驾驶之心· 2026-01-04 09:04
自动驾驶世界模型研究进展 - 自动驾驶技术得益于感知与规划的突破性进展,但在面对长尾场景时依然脆弱,制约了闭环驾驶性能[2] - 大量研究尝试运用世界模型,通过预测驾驶场景的未来演变来增强系统的泛化性与鲁棒性,以解决长尾问题[2] - 现有世界模型在自动驾驶中的应用主要分为三类:合成下游任务数据以应对罕见场景、利用模拟环境进行策略学习、提供未来的视觉预测作为辅助监督信号[3] 现有世界模型的局限性 - 现有世界模型在规划层面的贡献往往是间接的或与规划器并行的,缺乏与决策过程的紧密耦合[3] - 世界模型模拟器仅用于合成数据或作为闭环环境引导策略学习,其物理理解无法直接传递到规划器的内部状态中[3] - 世界模型监督仅预测未来视觉或信号来监督轨迹,规划过程依然是外部指定的[3] - 统一世界模型尝试联合生成视频和轨迹,但往往将视频生成器与策略头解耦,未能利用生成器强大的内部潜在特征作为规划依据,导致“视觉想象”与“动作决策”之间存在鸿沟[3] DriveLaW模型的核心创新 - 提出了DriveLaW,一种基于共享潜在空间表征的端到端世界模型,将生成与规划从并行转变为链式结构[5] - 核心思想在于直接利用大规模视频生成模型学习到的、蕴含丰富场景语义、智能体动力学和物理规律的潜在特征,将其注入到基于DiT的规划器中[5] - 核心优势包括链式生成与规划、独特的架构设计以及渐进式学习策略[5] DriveLaW的架构与训练方法 - 模型由DriveLaW-Video(时空世界生成器)和DriveLaW-Act(基于扩散的规划器)两部分组成[10] - 采用高压缩比(pixel-to-token ratio 64)的时空VAE,将视频片段编码至时空分辨率、128通道的因果潜空间,优于常见的16或32压缩率[18] - 引入了噪声重注入机制,在每次主去噪前,选择性向高频区域重注入噪声,以恢复动态目标与车道线的锐度和纹理,平衡细节重建与伪影抑制[25][27] - 采用三阶段渐进式训练策略:第一阶段在降低的空间分辨率下学习鲁棒运动模式;第二阶段在更高的空间分辨率下增强视觉质量;第三阶段将规划器与视频生成器的潜在特征耦合进行训练[34] DriveLaW的实验性能 - 在nuScenes视频生成任务上,DriveLaW达到了4.6 FID和81.3 FVD分数,超越了之前的世界模型方案[5][35] - 在NAVSIM闭环规划基准测试中,无需任何强化学习微调或后处理,便达到了89.1 PDMS分数,超越了以往的纯视觉世界模型方案[5][36] - 与采用并行生成-规划设计的Epona相比,DriveLaW提高了2.9 PDMS;比使用VLM和世界模型监督的DriveVLA-W0和PWM分别提高了1.9和1.0 PDMS[36] - 增加视频生成器的预训练样本量持续提升了闭环性能,使用7.6M样本预训练的生成器比从零开始训练的生成器带来了+3.2 PDMS的提升[37] 不同表征对规划性能的影响 - 视频生成器潜在特征比BEV特征提高了5.0 PDMS,比VLM隐藏状态提高了2.6 PDMS,证明了该表征的有效性[40] - 以来自早期去噪步骤的潜变量为条件会产生更强的规划能力,而来自后期步骤的潜变量表现较差,因为原始像素格式的视频包含冗余信息[41] - 可视化分析显示,VGM特征比BEV和VLM特征更锐利、噪声更少,并表现出卓越的语义连贯性和强大的空间结构感知能力[39] 训练策略的有效性验证 - 移除第一阶段训练会导致FVD显著升高(从81.3升至109.3),表明时间连贯性明显丧失[42] - 省略第二阶段训练会导致FVD少量增加(从81.3升至93.2),表明空间细节略有下降[42] - 完整的多阶段训练策略实现了最佳平衡,产生了最低的FID(4.6)和FVD(81.3)[42]
首次!比亚迪超越特斯拉,全球电动汽车销量第一
自动驾驶之心· 2026-01-03 17:24
全球电动汽车市场格局变化 - 特斯拉2025年全球交付163.6万辆汽车,同比下降约8.6%,这是公司首次在全年电动汽车销量上被比亚迪超越 [2] - 特斯拉2025年第四季度交付41.8万辆汽车,同比下降15.6%,低于分析师预期的约43.4万辆 [4] - 比亚迪2025年总体新车销量超460万辆,同比增长约8%,其纯电动汽车销量超225万辆,同比增长约28%,首次登顶全球纯电动汽车销量榜 [6] 中国主要新能源汽车制造商2025年交付表现 - 零跑汽车全年交付596,555辆,同比增长103.1%,超额完成50万辆年度目标,达成率119.31% [11] - 小米汽车全年交付35万辆,达成率108.57%,成为新势力中增速最快的品牌 [13] - 小鹏汽车全年交付429,445辆,同比增长125.94%,达成率122.7%,全年增长势头强劲 [15] - 理想汽车全年交付406,343辆,同比下降18.81%,完成70万辆年度目标的58.05% [17] - 蔚来汽车全年交付326,028辆,同比增长46.88%,完成44万辆年度目标的73.42% [20] 自动驾驶技术研发动态 - 比亚迪在2025年二月初发布“天神之眼”智能驾驶系统,内部正在加快端到端技术的研发,目标在2026年带来新进展 [9][10]
L4数据闭环:三端统一Trigger框架,让异常事件自动长成问题单
自动驾驶之心· 2026-01-03 17:24
文章核心观点 - 文章系统阐述了一种名为“Trigger框架”的自动驾驶数据闭环核心系统,旨在将异常事件从依赖人工经验排查的原始模式,转变为自动发现、自动归因、自动生成问题单并汇总成头部问题的智能化流程 [3][5][6] - 该框架的核心设计原则是“三端统一”,即用同一套Trigger逻辑代码在车端、云端和仿真端运行,确保问题定义和判断标准的一致性,从而解决传统方式中逻辑重复、结论打架的问题 [10][15][16] - 通过将Trigger框架与大型语言模型(LLM)和工作流引擎(如Dify)结合,构建了从问题自动分类、自动创建工单、自动加入仿真回归测试到自动验证修复的完整工单闭环,极大提升了问题处理效率和系统化程度 [44][47][51][60] 从传统问题排查到Trigger框架的转变 - 传统自动驾驶问题排查高度依赖少数资深专家(“老法师”)的经验,经验难以系统化沉淀,人员变动会导致诊断质量下降 [3][4] - 传统方式在车端在线监控、云端历史数据挖掘和仿真评测中需要各写一套逻辑,导致对同一事件(如急刹车)的判断阈值和结论经常不一致 [3][4][10] - 传统排查产生的是分散的“散点”,难以系统性地识别和定位当前最需要优先解决的头部问题类型 [4] - Trigger框架的目标是实现异常事件的自动发现、自动归因、自动分发,并自动汇总成头部问题,让数据自己“长成”结构化的“问题样本” [5][6] Trigger框架的定义与核心思想 - Trigger被定义为 **特征工程(Feature Engineering)** 加 **分词器(Tokenizer)** 的组合 [7] - **特征工程**:从原始日志(如姿态、感知结果、轨迹、底盘CAN信号、错误码等)中抽取一批“中间事件” [7] - **分词器**:将这些中间事件按时间轴打成带有类型、时间戳和附加属性的“Token” [7] - 后续的问题分类、聚类和头部问题分析,都是在这些Token序列、场景标签和Case(案例)数据上进行的操作 [9] - 从系统视角看,MPI(万公里干预次数)/ MPS / MPD等顶层指标是组织的损失函数(Loss Function),而每一次异常或Bug都是推动系统学习的“样本” [3][11] 三端统一Trigger框架的总体设计 - 框架设计有两个硬性规定:1) Trigger逻辑必须用纯Python编写,遵守统一接口;2) 多端适配、性能优化等复杂性全部由框架隐藏,业务开发人员只需关注Trigger逻辑本身 [19] - 整体架构分为三层: 1. **Trigger定义层**:包含每个Trigger的元数据(如唯一ID、描述、所属模块、输入依赖、输出标签、复杂度等级)以及供LLM阅读的文档 [16][19] 2. **Trigger Runtime(执行引擎)**:为Trigger提供在云端、车端和仿真端完全一致的执行接口,屏蔽底层平台差异 [16][17][26] 3. **Trigger管理与调度**:包括Manager和发布系统 [19] - Trigger的执行生命周期包含三个统一方法: - **init()**:声明数据依赖(订阅哪些数据通道和字段)并初始化Trigger的全局状态(如跨帧需要保存的变量) [20][21][22] - **eval()**:按时间顺序(云端离线for循环、车端实时流回调)被调用,处理每一帧数据,根据业务逻辑判断是否生成中间事件(Token) [20][22] - **analysis()**:在一段数据(如一个Case)处理完成后被调用,进行总结并输出结构化的结论和标准字段 [20][25] - 框架通过高性能C++库实现昂贵的几何运算(如多边形相交、距离计算),并向Trigger脚本提供Python接口,以保证eval()函数的性能 [22][23][24] Trigger框架的工程实现与生态 - 采用 **“框架库”** 与 **“Trigger逻辑库”** 分离的双仓库架构 [30][32] - **框架库**:包含核心Runtime、多端适配、高性能工具和可视化增强,由核心团队维护并遵循严格的发布流程 [30][32] - **Trigger逻辑库**:存放所有具体的业务Trigger规则(如急刹、大转向),由研发团队共同维护,并接入CI流水线和自动化测试 [32][34] - 为确保车端性能,需要下发到车端运行的Trigger必须通过台架性能测试闸门,只有消耗(CPU/内存/带宽)达标的Trigger才会被标记为可下发 [34][37] - 利用 **大模型(LLM)和RAG(检索增强生成)** 技术降低了Trigger编写门槛,构建了“Trigger编写助手” [35][38] - 将框架说明和示例Trigger作为提示词和知识库 [35] - 研发人员用自然语言描述监控需求,AI助手可自动生成Trigger代码骨架和可复用片段 [38] - 这使得大量调试经验得以代码化沉淀,成为系统的“知识库+工具箱” [36][39] - 框架支持极端的跨平台执行,甚至可以通过JS版Python解释器(如Pyodide)在纯前端网页环境中运行Trigger,极大降低了调试门槛 [30] 从Trigger到结构化Case的生成流水线 - **步骤1**:车端体感Trigger(如急刹)发现可疑事件,以“自然分钟”为粒度生成一个 **road_case**(路测案例)并分配ID [40][43] - **步骤2**:云端根据Trigger命中情况,决定为该case上传或保留相应的 **microlog**(无损二进制数据包)和 **mini log**(压缩可视化数据)作为“证据包” [40][43] - **步骤3**:云端Trigger在microlog/mini log数据上运行第二轮更精细的识别,产出更多Token补充到该road_case下 [40][43] - **步骤4**:一个road_case可能涉及多个模块问题,会据此拆分成多个 **bad_case**(不良案例)并分配给对应团队 [41][43] - **步骤5**:所有road_case、bad_case、Token和标签最终落入统一的数据表,为后续的自动分类、聚类和统计分析提供基础 [42][43] 基于LLM与Trigger Token的自动问题分类 - **第一阶段(规则树)**:早期使用纯规则树(if/else逻辑)进行分类,优点是可解释,但难以维护和扩展新问题 [44][45][48] - **第二阶段(LLM分类器)**:利用Trigger产出的Token序列和场景标签,构建更智能的分类系统 [46] 1. 将Token序列转换成“事件脚本”文本描述 [46][49] 2. 将脚本和场景信息输入LLM,让其输出问题归属模块、类型、严重程度和建议责任团队等自然语言结论 [46][49] 3. 将LLM的自然语言输出映射回结构化的字段,写回bad_case表 [46][49] - 在此流程中,Trigger扮演了 **Tokenizer(分词器)** 的角色,将原始信号转化为Token序列;LLM则扮演 **Classifier(分类器)** 的角色,在Token的语义空间中完成分类与归因 [47][49] - 自动分类系统的效果通过研发反馈进行闭环评估和迭代:统计研发在认领工单后是否修改了自动分类的标签,并将这些修正案例反向喂给LLM,用于持续优化分类器 [66][67][70] 工单与仿真的自动化闭环 - **自动创建工单**:LLM分类后的bad_case会自动转换为结构化工单(如Aone工单),自动填充标题、描述、附件链接、责任团队和优先级,无需人工补充背景信息 [52] - **自动加入仿真回归集**:问题被自动加入到对应团队维护的仿真回归测试集合中,与CI/准出流程打通 [53][54] - **多版本自动回归验证**:通过工作流(如Dify)串联,当有新的准出版本上线时,CI会自动用该版本在仿真平台跑对应问题的回归测试 [55][56] - 若测试通过,则标记问题在新版本已修复,老版本工单可自动关闭或等待升级 [56][57] - 若测试失败,工单保持打开状态,继续提醒团队处理 [56] - **系统集成**:使用Dify等工作流引擎,将LLM与数据平台、仿真平台、工单系统等外部接口(通过MCP工具封装)连接起来,LLM作为决策“胶水”调用这些工具函数,驱动整个闭环流程 [58][59][60][61] - **简化运维入口**:通过钉钉机器人,运维人员只需在群内发送问题截图和自然语言描述,即可自动触发后端完整的工作流,最终将创建好的工单和回放链接反馈到群内 [62][63][65] 从Case到头部问题发现 - 当积累了大量的road_case、bad_case、Token序列和自动分类标签后,问题聚类和头部问题发现便有了扎实的数据基础 [68][71] - 可以按模块、问题类型、场景进行分组统计,分析问题分布;也可以在地图上打点,识别高频问题路段;还可以利用Token序列模式进行聚类,找出一段时间内重复出现最多、对核心指标(MPI/MPD)影响最大的几类头部问题 [68][71]
2026年,这个自驾社区计划做这些事情......
自动驾驶之心· 2026-01-02 16:08
文章核心观点 - 文章旨在推广“自动驾驶之心知识星球”社区 该社区定位为国内首个自动驾驶全栈技术交流与学习平台 致力于通过整合学术与产业资源 降低行业入门壁垒 帮助从业者及学习者提升竞争力 [4][17] - 社区已运营三年 目前拥有超过4000名成员 并计划在未来两年内将规模扩大至近万人 目标是打造一个集技术分享、学习路线、求职交流、行业调研于一体的综合性聚集地 [4][5] - 社区内容覆盖自动驾驶全技术栈 梳理了超过40个技术方向的学习路线 并提供了包括视频课程、专家访谈、技术问答、直播分享、岗位内推等在内的多元化服务 [4][7][9][10][11] 社区定位与规模 - 社区是国内首个自动驾驶全栈社区 旨在为学术界和工业界人士提供技术交流平台 成员来自上海交大、北京大学、CMU、清华大学等国内外知名高校以及蔚小理、地平线、华为、大疆等头部公司 [17] - 社区目前成员已超过4000人 并计划在未来2年内将规模做到近万人 [4][5] - 社区内容形式多样 集视频、图文、学习路线、问答、求职交流为一体 [4] 内容体系与资源 - 社区系统梳理了超过40个自动驾驶技术方向的学习路线 包括感知、规划控制、仿真、端到端、VLA、多模态大模型、BEV感知、世界模型等 [7][9][18] - 汇总了丰富的学习资源 包括近40+开源项目、近60+自动驾驶相关数据集、行业主流仿真平台以及各类技术学习路线 [18] - 提供了七大福利视频教程 涵盖感知融合、多传感器标定、SLAM、规划预测、数据工程、目标跟踪、仿真、端到端及大模型技术等 [11] - 整理了自动驾驶领域企业介绍、国内外高校著名团队、经典书籍、开源数据集、会议信息等实用资料 [10][29][31][33][37] 社区活动与服务 - 定期举办“星友面对面”活动 已开展五期 覆盖学术界和工业界、科研就业和申博、跳槽和转行等话题 [4] - 计划开展企业技术专家访谈和行业调研 重点关注智驾规模化量产及L4赛道发展 [4] - 已举办超过一百场专业技术直播 邀请行业一线专家分享前沿工作 如VLA、3D检测、V2X、扩散模型规划、3DGS等 [90] - 提供技术问答服务 已为近4500名星友解答问题 并设有圆桌访谈和日常问题讨论 [4][21][92] - 与多家自动驾驶公司建立岗位内推机制 帮助成员对接就业机会 [11][22] 覆盖的技术方向与热点 - **端到端自动驾驶与VLA**:详细梳理了一段式/二段式量产方案、VLA开源数据集、模块化与端到端VLA等 是当前学术与工业界热点 [39][47] - **多模态与大模型**:涵盖自动驾驶多模态大模型预训练与微调数据集、VLM、大模型在自动驾驶中的应用等 [7][45][86] - **感知技术**:全面覆盖BEV感知、3D目标检测、2D/3D分割、多传感器融合、车道线检测、Occupancy Network、鱼眼感知等方向 [10][53][55][57][64][68][83][84] - **规划控制与预测**:包括传统规划控制算法、决策框架、轨迹预测、强化学习等 [10][49][62] - **仿真与重建**:涉及3DGS、NeRF与自动驾驶仿真结合、闭环仿真、Carla/Apollo等仿真平台 [41][82] - **前沿模型**:重点关注扩散模型、世界模型等技术在自动驾驶领域的原理与应用 [43][51] - **工程落地**:提供模型压缩、部署优化、CUDA编程、TensorRT部署等实战内容 [10][70][72]