自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

自动驾驶之心· 2025-12-10 03:00

行业技术发展趋势 - 2023年是端到端自动驾驶量产的元年，2024年将是其量产的大年，目前头部新势力和主机厂均已实现端到端量产 [1] - 工业界存在两种主要技术范式：一段式（如UniAD，从传感器输入直接建模自车轨迹）和二段式（基于感知结果进一步输出自车及他车轨迹） [1] - 自2023年以来，一段式端到端技术发展迅速，衍生出基于感知、世界模型、扩散模型及视觉语言模型（VLA）等多种方法 [3] - 主流自动驾驶企业，包括智驾方案供应商和车企，均在发力端到端自动驾驶的自研与量产 [3] - 基于视觉语言模型（VLA）的端到端方法被认为是目前该领域的皇冠，上限高且难度大，因此业内招聘需求也最为旺盛 [12] 课程核心内容与结构 - 课程旨在系统讲解端到端与VLA自动驾驶，内容涵盖BEV感知、视觉语言模型、扩散模型、强化学习等前沿技术栈 [5] - 第一章介绍端到端算法的发展历史、概念起源、从模块化到端到端的演进，以及一段式、二段式和VLA范式的优缺点与适用场景 [8] - 第二章重点讲解端到端涉及的背景知识，包括大语言模型、扩散模型、强化学习及BEV感知，这些被认为是未来两年求职面试的高频技术关键词 [8][9] - 第三章聚焦二段式端到端，解析其定义、出现原因，并讲解经典算法PLUTO、CVPR'25的CarPlanner及最新的Plan-R1等工作 [9] - 第四章作为课程精华，深入讲解一段式端到端的各个子领域：基于感知的UniAD、基于世界模型、基于扩散模型以及基于VLA的方法 [10] - 第五章设置RLHF微调大作业，进行实战演练，内容包括预训练与强化学习模块搭建，该技能可迁移至VLA相关算法 [11][13] 关键技术详解与实战案例 - 基于感知的一段式方法将讲解奠基之作UniAD、地平线VAD以及CVPR'24的PARA-Drive [12] - 基于世界模型的方法将讲解AAAI'25的Drive-OccWorld和复旦团队的OccLLaMA，世界模型技术方向热门，应用广泛，包括场景生成、端到端驾驶和闭环仿真 [12] - 基于扩散模型的方法将讲解业内应用广泛的DiffusionDrive、Diffusion Planner和吉大的DiffE2E，并配有Diffusion Planner实战，扩散模型用于多模轨迹预测以更好适应环境不确定性 [12] - 基于VLA的方法将讲解小米的ORION、慕尼黑工大的OpenDriveVLA以及最新的ReCogDrive，并以小米ORION（截至2025年7月已开源推理和评测模块）作为实战案例 [12] - 课程第二章将详细拆解多项基础技术：从Transformer扩展到视觉Transformer，讲解CLIP和LLaVA；详解BEV感知在3D检测、车道线、OCC、轨迹预测与规划中的应用；讲解扩散模型理论；以及VLM相关的强化学习技术如RLHF和GRPO [11] 课程目标与受众要求 - 该课程是首个面向端到端自动驾驶的进阶实战教程，旨在推动端到端技术在工业界的落地 [14] - 期望学员学完后能达到具备1年左右经验的端到端自动驾驶算法工程师水平 [16] - 学员需自备GPU，推荐算力在RTX 4090及以上；需具备一定的自动驾驶领域基础，熟悉基本模块；了解transformer大模型、强化学习、BEV感知等基本概念；具备概率论、线性代数基础及Python和PyTorch编程能力 [16] - 课程收获包括：掌握涵盖一段式、两段式、世界模型、扩散模型等的端到端技术框架；对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻理解；可复现扩散模型、VLA等主流算法框架；能够将所学应用于实际项目设计 [16]

世界模型自动驾驶小班课！特斯拉世界模型、视频&OCC生成速通

自动驾驶之心· 2025-12-10 03:00

课程核心定位 - 课程为自动驾驶领域首个面向端到端自动驾驶的进阶实战教程，旨在推动端到端技术在工业界的落地，并助力学员深入理解端到端自动驾驶 [11] - 课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法，涵盖特斯拉世界模型、李飞飞团队Marble等前沿工作 [1] - 课程由工业界专家授课，内容基于讲师丰富的端到端算法研发和量产实战经验 [3] 讲师背景 - 讲师Jason拥有C9本科和QS50高校的博士学位，已发表多篇CCF-A/B类论文 [3] - 现任国内顶级主机厂算法专家，从事端到端、大模型、世界模型等前沿算法的预研和量产，并已主持完成多项自动驾驶感知和端到端算法的产品量产交付 [3] 课程大纲与内容结构 - **第一章：世界模型介绍** 复盘世界模型与端到端自动驾驶的联系，讲解其发展历史、应用案例、不同技术流派（如纯仿真、仿真+Planning、生成传感器输入等）及其在业界解决的问题和所处环节，并介绍相关数据集与评测 [6] - **第二章：世界模型的背景知识** 讲解世界模型的基础知识，包括场景表征、Transformer、BEV感知等，这些内容是当前世界模型求职面试频率最高的技术关键词 [6][7] - **第三章：通用世界模型探讨** 聚焦通用世界模型及近期热门工作，详细讲解李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型，以及VLA+世界模型算法DriveVLA-W0和特斯拉ICCV分享的世界模型模拟器 [7] - **第四章：基于视频生成的世界模型** 聚焦视频生成类世界模型算法，讲解Wayve的GAIA-1 & GAIA-2、上海交通大学的UniScene、商汤的OpenDWM、中科大的InstaDrive等经典与前沿工作，并以商汤开源的OpenDWM进行实战 [8] - **第五章：基于OCC的世界模型** 聚焦OCC生成类世界模型算法，包含三大论文讲解和一个项目实战，此类方法可扩展至自车轨迹规划，进而实现端到端 [9] - **第六章：世界模型岗位专题** 基于前五章算法基础，分享工业界应用经验、行业痛点、期望解决的问题，以及相关岗位面试准备与公司关注重点 [10] 关键技术覆盖与学后收获 - **关键技术覆盖** 课程将详细讲解Transformer、视觉Transformer、CLIP、LLaVA、BEV感知、占用网络、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等生成式模型 [12] - **核心算法掌握** 学员将掌握世界模型技术进展，涵盖视频生成、OCC生成等方法，并对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解 [14] - **实战能力目标** 学员学完后能够复现II-World、OpenDWM等主流算法框架，能够将所学应用到项目中，设计自己的世界模型，达到约1年经验的自动驾驶算法工程师水平 [14] - **职业发展受益** 课程内容对实习、校招、社招均有助益 [14] 课程进度与安排 - 课程于1月1日开课，预计两个半月结课，采用离线视频教学，并提供VIP群答疑及三次线上答疑，答疑服务截止2026年12月31日 [15] - 各章节解锁时间安排如下：第一章于12月10日解锁，第二章于1月1日解锁，第三章于1月20日解锁，第四章于2月4日解锁，第五章于2月24日解锁，第六章于3月1日解锁 [16] 面向人群与先修要求 - **面向人群** 课程面向具备一定自动驾驶领域基础，熟悉基本模块的学员 [14] - **先修知识要求** 学员需了解transformer大模型、扩散模型、BEV感知等基本概念，具备一定的概率论、线性代数基础，以及Python和PyTorch编程能力 [14] - **硬件要求** 学员需要自备GPU，推荐算力在RTX 4090及以上 [14]

端到端落地小班课：核心算法&实战讲解（7个project）

自动驾驶之心· 2025-12-10 03:00

行业招聘与技能需求趋势 - 自动驾驶行业招聘需求正发生变化，两年前热门的感知岗位需求进一步收缩，当前需求较高的方向集中在端到端、VLA（视觉语言动作模型）、世界模型等领域 [2] - 头部玩家已验证端到端技术路径可行，其他车企正跟进投入资源，从模型优化、场景优化、数据优化到下游的规划兜底方案 [2] - 市场对候选人的技术要求更广，涉及导航信息引入、强化学习调优、轨迹建模与优化等具体量产经验，但目前候选人往往只精通部分领域 [2] 端到端自动驾驶技术核心 - 端到端系统正成为主流，其核心在于合并感知任务并使规控（规划与控制）算法学习化，取代传统的感知、地图、规控等多模块分立系统 [7] - 技术框架主要分为两段式与一段式：两段式框架涉及感知与PNC（规划、导航与控制）的信息传递；一段式框架可实现信息无损传递，性能通常更优，具体方案包括基于VLA和基于扩散模型的方法 [8][9] - 导航信息是关键要素，起引导、选路、选道作用，其在地图中的编码与嵌入方式是发挥效力的重点 [10] - 纯模仿学习存在局限，需结合强化学习以处理人类驾驶风格差异和罕见场景，使系统学习因果关系并实现泛化 [11] - 量产落地需规划兜底方案，通过时空联合规划等后处理逻辑对模型输出轨迹进行平滑优化，以保证稳定可靠 [13] 量产实践与课程内容映射 - 面向量产的端到端实战涉及多个核心算法，包括：一段式/两段式端到端、导航信息量产应用、开闭环强化学习、扩散模型+强化学习、自回归+强化学习、时空联合规划等 [2] - 量产经验分享涵盖数据、模型、场景、规则等多视角，旨在提供解决实际问题的工具与策略，以快速提升系统能力边界 [14] - 相关实战课程设计为期三个月，从任务概述、算法框架、RL算法、轨迹优化到兜底方案与经验分享，层层展开 [2][7][8][9][10][11][12][13][14]

随到随学！自动驾驶4D标注全流程实战（动静态/OCC）

自动驾驶之心· 2025-12-10 03:00

行业趋势与核心驱动力 - 自动驾驶能力的提升高度依赖于千万级训练数据提供的强大动力[2] - 数据闭环系统能够源源不断地自动化产出4D标注数据，这是动力的关键源头[2] - 随着端到端模型和视觉语言动作模型的广泛应用，对训练数据形式的要求变得日益复杂[2] - 当前训练数据需求已超越传统的2D框、3D框和静态元素的单帧分别标注模式[2] - 端到端模型需要时间同步后的多传感器统一标注，涵盖动态元素、静态元素、通用障碍物占据以及轨迹预测等，以确保训练数据的完整性[2] - 面对日益复杂的标注需求和训练数据需求，自动化4D标注技术的重要性正日益凸显[2] 技术挑战与行业痛点 - 自动标注技术的核心在于高性能的自动标注算法[4] - 行业在实际应用中面临一系列技术痛点，包括：如何在不同城市、道路、天气和交通状况下做好多传感器的标定与同步[4] - 如何处理跨传感器之间的遮挡问题[4] - 如何确保算法在不同场景下保持良好的泛化性能[4] - 如何从海量结果中筛选出高质量的标注数据[4] - 如何建立有效的自动化质检流程[4] 课程核心内容与目标 - 课程旨在系统讲解自动驾驶4D自动标注的全流程及核心算法[8] - 课程内容结合真实落地的工业界算法，并配合实战演练，以全方位提升学习者的算法能力[8] - 课程核心内容包括：全面掌握4D自动标注的整体流程和核心算法[8] - 每章节均配套大量实战练习，确保学员不仅能听懂更能实际应用[8] - 涵盖动态障碍物的检测、跟踪、问题优化及数据质检[8] - 讲解基于重建图的静态元素标注方法[8] - 涵盖通用障碍物占据标注的全流程[8] - 教授端到端标注的主流范式并进行实战教学[8] - 探讨数据闭环的核心痛点及未来发展趋势[9] 课程结构与服务模式 - 课程采用线上直播、代码讲解与线上答疑相结合的授课方式[12] - 课程提供配套的学习资料和源码示例[12] - 学员可加入专属微信群进行答疑，答疑服务持续至2026年4月[12] - 课程购买后1年内有效，支持学员反复观看学习[12]

工业界大佬带队！三个月搞定3DGS理论与实战

自动驾驶之心· 2025-12-10 03:00

3DGS技术发展与应用 - 新视角合成的核心目标是通过图像或视频构建可被计算机处理的3D模型，催生了3D建模、虚拟现实、自动驾驶闭环仿真等大量应用 [2] - 早期算法如SfM、MVS受限颇多，2020年NeRF打破僵局但仍面临计算效率和可编辑性差的问题，2023年3DGS一经问世便迅速火爆 [2] - 3DGS技术迭代速度远超想象，已发展出静态重建3DGS、动态重建4DGS、表面重建2DGS，并进一步催生了feed-forward 3DGS以解决per-scene optimization方法不便使用的问题 [4] - 目前3DGS在学术界和工业界都很受欢迎，但入门需要吃透点云处理、深度学习等理论，并掌握实时渲染、代码实战 [4] 课程核心内容与结构 - 课程包含2DGS/3DGS/4DGS的细致讲解，并扩展当下3DGS重要的几个研究课题，最后讲解feed-forward 3DGS，旨在全面吃透3DGS技术栈 [6] - 课程大纲共六章，从背景知识、原理算法到自动驾驶应用、研究方向及前沿feed-forward方法，最后安排答疑讨论 [8][10][11][12][13][14][15] - 课程进度安排为离线视频教学，自12月1日开课，预计两个半月结课，分章节逐步解锁并配合VIP群内答疑及三次线上答疑 [17] 课程具体章节要点 - **第一章：3DGS背景知识**：从计算机图形学基础讲起，涵盖三维空间的隐式/显式表达、渲染管线、光线追踪、辐射场渲染等技术概念及其与3DGS的联系，并介绍COLMAP、Gsplat等开发工具，设计基于3D Real Car训练模型的小作业 [10] - **第二章：3DGS原理和算法**：详细梳理3DGS原理及核心伪代码，讲解动态重建、表面重建、鱼眼重建和光线追踪的经典与最新算法，实战选用英伟达开源的3DGRUT框架 [11] - **第三章：自动驾驶3DGS**：聚焦自动驾驶仿真重建，讲解浙大Street Gaussian、上交OmniRe和浙大Hierarchy UGP三篇工作，实战选用学术界和工业界使用最多的DriveStudio [12] - **第四章：3DGS重要研究方向**：聚焦COLMAP扩展、深度估计及Relighting等研究方向，并分享这些方向如何服务工业界及学术探索的未来走势 [13] - **第五章：Feed-Forward 3DGS**：梳理feed-forward 3DGS的发展历程和算法原理，讲解最新的AnySplat和WorldSplat算法工作 [14] - **第六章：答疑讨论**：通过线上交流形式，组织讨论3DGS岗位需求、行业痛点及开放性问题 [15] 课程面向人群与收获 - 面向人群需自备GPU（推荐算力在4090及以上），并具备一定的计算机图形学基础、视觉重建/NeRF/3DGS技术了解、概率论与线性代数基础、Python和PyTorch语言基础 [19] - 学后收获包括掌握3DGS完善的理论知识及相关技术栈、掌握3DGS算法开发框架并能训练开源模型、与学术界及工业界同行持续交流，对实习、校招、社招均能受益 [19]

自动驾驶之心· 2025-12-10 03:00

自动驾驶行业技术趋势 - 在端到端技术之后，视觉语言动作模型已成为学术界和工业界聚焦的核心方向，它提供了类人思考的能力，通过思维链形式展现车辆决策过程，旨在提供更可靠、更安全的自动驾驶能力 [1] - 传统的BEV感知、车道线、Occupancy等方向已相对成熟，学术界和工业界的关注度正在逐渐下降，目前自动驾驶VLA是各家企业急需攻克的方案 [4] - 主流的自动驾驶企业，包括智驾方案供应商和车企，都在发力自动驾驶VLA的自研 [4] 自动驾驶VLA技术分类与核心内容 - 自动驾驶VLA目前可分为三个子领域：模块化VLA、一体化VLA和推理增强VLA [1] - 该领域涉及的核心内容包括视觉感知、大语言模型、Action建模、大模型部署、数据集制作等 [6] - 最前沿的算法包括思维链、混合专家模型、检索增强生成、强化学习等 [6] 自动驾驶VLA课程概述与师资 - 课程由清华大学教研团队联合推出，名为《自动驾驶VLA与大模型实战课程》，是国内首个自动驾驶VLA进阶实战教程 [6][21] - 课程旨在推动自动驾驶VLA在学术界和工业界的发展，帮助学习者真正理解VLA [21] - 讲师团队包括来自清华大学和QS30高校的硕士生与博士生，他们在ICCV、IROS、EMNLP等顶级会议发表过多篇论文，研究方向涵盖多模态感知、自动驾驶VLA、大模型Agent等，并拥有丰富的研发和实战经验 [8] 课程结构与内容大纲 - **第一章：自动驾驶VLA算法介绍** - 讲解VLA算法的概念、发展历史、任务拆解，并介绍开源的BenchMark和常见评测指标，帮助学员建立整体了解 [11][12] - **第二章：VLA的算法基础** - 讲解Vision、Language和Action三个模块的基础知识，阐述大模型与自动驾驶VLA的结合方式，并扩展讲解以Qwen 2.5VL-72B为例的开源大模型本地部署和使用 [13] - **第三章：VLM作为自动驾驶解释器** - 讲解VLA概念提出前，VLM作为解释器参与场景理解的经典及最新算法，如DriveGPT4、TS-VLM等，重点分析其动机、网络结构与核心算法 [14] - **第四章：模块化&一体化VLA** - 聚焦模块化和一体化VLA，讲解语言模型从被动描述演变为主动规划组件的过程，对比多阶段pipeline与端到端映射的差异，并配套实战代码学习华科与小米最新提出的ReCogDrive模型 [15] - **第五章：推理增强VLA** - 聚焦推理增强VLA，讲解其通过思维链、记忆、工具调用等实现长时序规划与因果解释的特点，重点分析ORION、DriveMoE、DiffVLA、S4-Driver等算法，并配套实战代码学习清华AIR与博世提出的Impromptu VLA模型 [16][17][18] - **第六章：大作业** - 要求学员基于ms-swift框架，从网络构建开始，自定义数据集和加载模型，开启训练任务并进行微调，注重动手实操能力 [19] 课程安排与学习要求 - 课程为离线视频教学，开课时间为10月20日，预计两个半月结课，包含VIP群答疑和三次线上答疑，各章节按计划时间解锁 [22] - 学习要求学员自备GPU，推荐算力在RTX 4090及以上，并需具备一定的自动驾驶领域基础、Transformer大模型、强化学习、BEV感知等概念知识，以及概率论、线性代数、Python和PyTorch基础 [23] - 学后收获包括彻底理解自动驾驶VLA当前进展、掌握三大子领域核心算法、加深对视觉感知等多模态AI技术的了解、能够复现主流算法并应用于实际项目，对实习、校招、社招均有助益 [23]

世界模型与自动驾驶小班课正式推出！特斯拉世界模型、视频OCC生成一网打尽~

自动驾驶之心· 2025-12-09 15:59

课程核心内容与定位 - 课程名称为《世界模型与自动驾驶小班课》，是首个面向端到端自动驾驶的进阶实战教程，旨在推动端到端技术在工业界的落地，并助力学员真正理解端到端自动驾驶 [2][10] - 课程由“自动驾驶之心”公众号联合工业界大佬推出，是继《端到端与VLA自动驾驶小班课》后进一步推出的课程，聚焦于通用世界模型、视频生成、OCC生成等世界模型算法 [2] - 课程讲师Jason拥有C9本科和QS50 PhD背景，发表多篇CCF-A/B论文，现任国内TOP主机厂算法专家，主持并完成多项自动驾驶感知和端到端算法的产品量产交付，具备丰富的研发和实战经验 [2] 课程大纲与章节详解 - **第一章：世界模型介绍** 复盘世界模型与端到端自动驾驶的联系，讲解其发展历史、当下应用案例，并介绍纯仿真、仿真+Planning、生成传感器输入、生成感知结果等不同流派，以及它们在业界的应用、解决的问题、所处环节、相关数据集和评测 [5] - **第二章：世界模型的背景知识** 讲解世界模型的基础知识，包括场景表征、Transformer、BEV感知等，为后续章节奠定基础，其内容是当下世界模型求职面试频率最高的技术关键词 [5][6] - **第三章：通用世界模型探讨** 聚焦通用世界模型和近期热门工作，涵盖李飞飞团队的Marble、DeepMind的Genie 3、Meta的JEPA、导航世界模型，以及业界广泛讨论的VLA+世界模型算法DriveVLA-W0和特斯拉ICCV上分享的世界模型模拟器 [6] - **第四章：基于视频生成的世界模型** 聚焦视频生成类世界模型算法，从Wayve的GAIA-1 & GAIA-2开始，扩展到上交CVR'25的UniScene、商汤的OpenDWM、中科大ICCV'25的InstaDrive，兼顾经典与前沿进展，并以商汤开源的OpenDWM进行实战 [7] - **第五章：基于OCC的世界模型** 聚焦OCC生成类世界模型算法，包含三大论文讲解和一个项目实战，此类方法不局限于OCC生成，可较易扩展为自车轨迹规划，从而进一步实现端到端 [8] - **第六章：世界模型岗位专题** 基于前五章算法基础，分享工业界应用经验，探讨行业痛点、期望解决的问题，以及如何准备相关岗位面试和公司真正关注的内容 [9] 课程技术深度与学后收获 - 课程将详细讲解Transformer、视觉Transformer、CLIP、LLAVA、BEV感知、占用网络(Occupancy Network)、扩散模型、闭环仿真、NeRF、3DGS、VAE、GAN及Next Token Prediction等关键技术概念 [11] - 课程涵盖OCC生成类世界模型的多个前沿工作，包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交最新的II-World [12] - 学员学完本课程后，预期能够达到1年左右世界模型自动驾驶算法工程师水平，掌握世界模型技术进展（涵盖视频生成、OCC生成等方法），对BEV感知、多模态大模型、3DGS、扩散模型等关键技术有更深刻了解，并可复现II-World、OpenDWM等主流算法框架，能够将所学应用到项目设计中，对实习、校招、社招均有助益 [13] 课程安排与面向人群 - 课程开课时间为1月1号，预计两个半月结课，采用离线视频教学，辅以VIP群内答疑和三次线上答疑 [14] - 章节解锁时间安排如下：第一章于12月10日解锁，第二章于1月1日解锁，第三章于1月20日解锁，第四章于2月4日解锁，第五章于2月24日解锁，第六章于3月1日解锁 [14] - 面向人群需自备GPU（推荐算力在4090及以上），具备一定的自动驾驶领域基础，熟悉自动驾驶基本模块，了解transformer大模型、扩散模型、BEV感知等技术的基本概念，具备一定的概率论、线性代数基础以及Python和PyTorch语言基础 [13]

从 LLaVA 到 Qwen3-VL，解构多模态大模型的演进之路

自动驾驶之心· 2025-12-09 08:03

多模态大模型（MLLM）的技术演进与核心架构 - 行业正经历从纯文本模型向能听、会看、可交互的“智能体”的深刻变革，AI通过多模态大模型（MLLM）开始感知和理解物理世界[1] - 在MLLM的赛道上，主要涌现出两条技术路线：以“大道至简”为核心的LLaVA系列和奉行“深度融合”设计思想的Qwen3-VL[2] MLLM的“三位一体”黄金架构 - 绝大多数主流多模态大模型遵循一个共同的“三位一体”架构，包括视觉编码器（眼睛）、大语言模型（大脑）和连接器（灵魂之桥）[3] - **视觉编码器（Vision Transformer, ViT）**：负责将输入的像素世界转化为机器能理解的数学表达（特征向量），其核心是将图像分割成不重叠的小方块（Patches）并进行编码[5][7] - **大语言模型（LLM）**：作为系统的“思考中枢”，负责最终的认知、推理和内容生成，接收融合了视觉与文本信息的序列进行思考[5][17] - **连接器（Connector）**：核心使命是将ViT输出的视觉特征精准投影到LLM能够理解的同一向量空间中，以解决“模态鸿沟”[6][32] AI的“眼睛”：Vision Transformer (ViT) 技术细节 - ViT的工作流程分为四步：图像分块、展平与线性投影、添加上下文信息、核心处理引擎（Transformer Encoder）[9][10][12][15] - 在图像分块步骤中，一张224x224像素的图像若使用16x16大小的图块分割，将被转换为总计196个图像块的一维序列[9] - 为让模型理解图像块的空间位置，现代ViT架构广泛采用旋转位置编码（RoPE），其通过旋转方式将位置信息动态融入注意力机制，具备极强的尺寸泛化能力[13][14] - ViT中的2D-RoPE与LLM中的1D-RoPE存在根本区别，前者需同时编码高度和宽度两个维度的信息，实现更为复杂[14] AI的“大脑”：大语言模型（LLM）的运作机制 - LLM接收的输入是一个融合了视觉与文本信息的一维长序列，例如196个视觉词元与5个文本词元拼接成的201长度序列[20][21] - LLM基于多模态上下文进行自回归生成，像滚雪球一样迭代预测下一个最有可能出现的词元，直到生成终止符[24][25] - 解码策略是一门艺术，主要包括：速度最快但可能陷入局部最优的贪婪解码、平衡质量与成本的束搜索（Beam Search）、以及增加多样性的采样策略（如Top-p采样）[26][27][29] - 作为“大脑”的LLM自身也在进化，以Qwen3-VL为代表的新一代MLLM，其语言模型部分开始采用更先进的混合专家（MoE）架构，通过稀疏激活在增加参数量的同时保持推理效率[27][30] 灵魂之桥：“连接器”的设计哲学 - 连接器的设计主要分为两大流派：以LLaVA系列为代表的“极简线性翻译官”和以BLIP-2模型为代表的“主动型信息提炼师”Q-Former[34][36][38] - **极简线性翻译官**：通常是一个简单的多层感知机（MLP），核心任务是进行线性维度变换，将视觉特征映射到LLM的隐藏空间，依赖强大的LLM和海量数据完成融合[36][37] - **主动型信息提炼师（Q-Former）**：核心机制包括可学习的查询向量（Learnable Queries）和交叉注意力（Cross Attention），旨在进入LLM前对视觉信息进行深度提炼与压缩[40][42][45] - Q-Former通过一组固定数量（如32个）的可学习查询向量，像专家分析师一样从冗长的原始视觉特征（如196个）中提炼出信息高度浓缩的摘要向量，极大减轻了LLM的计算负担[43][44][51] 从像素到文字的完整数据旅程 - 数据从输入到输出的全过程是一场数据形态与矩阵维度的变换之旅，可通过具体示例追踪每一步的变化[48][49] - 以一张224x224的RGB图像和问题“What is in the image?”为例，其处理步骤包括：原始像素矩阵[1, 3, 224, 224] -> ViT分块后序列[1, 196, 768] -> ViT输出特征[1, 196, 768] -> 连接器投影对齐[1, 196, 4096] -> 文本嵌入[1, 5, 4096] -> 多模态拼接输入[1, 201, 4096] -> LLM生成输出答案[21][52] - 最关键的转变发生在多模态拼接步骤，视觉与文本词元被物理拼接，形成一个统一的“多模态现实”输入序列，使LLM的自注意力机制能实现真正的图文深度理解[21][58] 解决高分辨率处理矛盾的两条技术路线 - 面对让模型处理高分辨率信息而不牺牲效率的核心矛盾，业界探索出两条主要技术路线[54] - **路线一：LLaVA的AnyRes**：奉行“扩展输入边界”哲学，通过在输入端进行巧妙的工程设计，使模型能处理任意分辨率的图像[55] - **路线二：Qwen3-VL的DeepStack**：奉行“精巧设计，架构致胜”哲学，对模型核心架构进行改造，构建多层次的信息深度融合系统[64] 路线一详解：LLaVA的AnyRes技术 - LLaVA-1.5-HD采用“全局+局部”协同策略：将高清大图分割成多个高清晰度图块以保留局部细节，同时将原图降采样获得低分辨率全局概览图以提供上下文，最后将两路特征拼接送入LLM[56][59][62] - LLaVA-OneVision提出更先进的Higher AnyRes策略，通过双线性插值在特征空间中“缝合”离散图块，重建高分辨率特征图以更好地保留文档布局等空间关系，提升在文档视觉问答等任务上的表现[60][68] - LLaVA系列的演进展现了其通过迭代AnyRes这一前端技术，在不改动核心架构的前提下解决高分辨率处理难题的工程智慧[63] 路线二详解：Qwen3-VL的DeepStack技术 - DeepStack技术的核心是将视觉词元深度堆叠或注入到模型内部的不同层级，实现高效的深度融合，其提出两种模式：DeepStack-L（注入LLM）和DeepStack-V（注入ViT）[64][69] - Qwen3-VL采用DeepStack-L思想，将视觉信息深度注入到LLM的处理流程中，从视觉编码器的指定中间层（如第8、16、24层）提取特征，注入到LLM解码器的前几个浅层中[66][97] - 实验依据表明，LLM的浅层更适合处理和融合相对原始的视觉特征，注入起始层越靠前（如0~4层）、间隔约2或3层、总共注入约4个层时效果最优[71][76] - 实现上异常简洁高效，核心逻辑是在Transformer层循环中增加条件判断和一次原地加法，计算开销极小[72][74] - Qwen3-VL的适配更为高效，直接从处理标准输入的同一个Vision Tower的中间层提取特征，无需额外的高分辨率图像编码过程[75][99] LLaVA系列架构全景剖析 - LLaVA系列是其核心哲学“简洁即正确”的完美诠释，证明了极简架构在海量数据和聪明工程驱动下的强大力量[80] - LLaVA 1.0版本架构极其简洁：采用预训练的CLIP ViT-L作为视觉编码器，基于LLaMA/Vicuna作为语言模型，连接器仅为一个单层线性投影层[81][83][87] - LLaVA-1.5进行了务实迭代：将连接器升级为两层MLP，将视觉编码器输入分辨率提升至336x336，并引入更大规模的指令微调数据集[84][88] - LLaVA-OneVision达到演进高峰，通过海量多样化数据和优化的Higher AnyRes技术，将简洁理念从静态图像无缝扩展至动态视频，成为首批实现图像与视频统一处理的开源模型之一[92] Qwen3-VL架构全景剖析 - Qwen3-VL代表了“精巧设计，架构致胜”的路线，对模型核心架构进行深度改造以实现视觉与语言的持续深度交互[93] - 其架构实现了从“入口拼接”到“多层注入”的范式转变，视觉信息的处理和融合方式更为复杂精巧[94][96] - 代码演进清晰展示了其哲学转变：Qwen3-VL引入了`deepstack_merger_list`模块以实现DeepStack，并将语言模型升级为采用混合专家（MoE）架构的`Qwen3VLMoeTextModel`[98][101] - 除DeepStack外，Qwen3-VL还集成了多项前沿技术，如更先进的多维旋转位置编码MRoPE-Interleave和文本时间戳对齐机制，共同构成其技术护城河[101] 行业发展趋势与展望 - LLaVA与Qwen3-VL的发展路径虽不同，但殊途同归，共同推动了MLLM的性能边界，并指向实现视觉与文本更深层次、更无缝统一的方向[103][104] - 未来清晰的发展趋势包括：从“感知”迈向“推理与执行”，发展出能操作界面、调用工具的视觉智能体能力；拥抱动态与三维世界，原生支持长视频理解和3D空间定位；以及走向真正的多模态统一，在预训练早期进行多种模态数据的协同训练[107]

多模态大模型 (Multimodal Large Models

MLLM)

自回归生成 (Autoregressive Generation)

混合专家 (Mixture of Experts

MoE)

旋转位置编码 (Rotary Position Embedding

多模态大模型 (Multimodal Large Models

MLLM)

自回归生成 (Autoregressive Generation)

混合专家 (Mixture of Experts

MoE)

旋转位置编码 (Rotary Position Embedding

中游智驾厂商，正在快速抢占端到端人才......

自动驾驶之心· 2025-12-09 08:03

行业技术发展趋势 - 智能驾驶领域的技术焦虑正在产业链中游厂商间快速传播[1] - 业内认为端到端等前沿技术的大规模量产起点将在明年[2] - 当前智能驾驶前沿技术发展放缓，行业量产方案趋于同质化，L2级智能驾驶正走下沉路线[2] - 随着明年L3级法规的进一步推进，中游厂商面临迫切的技术升级压力[2] - 近期许多公司的算法负责人正积极寻求了解端到端、世界模型、VLA、3DGS等前沿技术[2] 市场现状与规模 - 二十万元以上的乘用车年销量约为700万辆[2] - 头部新势力品牌在该价格区间的销量占比不足三分之一[2] - 搭载端到端量产方案的车型占比则更低[2] - 地平线公司宣布将进军10万元级市场，表明高阶智能驾驶正迅速向更多国民车型下沉[2] 技术落地与产业影响 - 端到端技术不仅仅是一个算法，其成熟落地需要完善的云端与车端基础设施、数据闭环、工程部署、闭环测试、模型优化及平台开发等全套体系支持[2] - 端到端技术的成熟被视为更大规模量产的开端[2] - 可以预见，市场对中阶智能驾驶相关岗位的需求将更加旺盛[2] - 近几个月，行业对端到端和VLA技术的学习与入门需求显著增加[3] 行业培训与人才需求 - 为应对技术升级需求，出现了针对端到端和VLA技术的实战培训课程[3] - 相关课程由工业界与学术界的专家联合开展，聚焦量产落地[3] - 课程内容涵盖导航信息应用、强化学习优化、Diffusion和自回归模型量产经验、时空联合规划等关键模块[3] - 另有课程专注于VLA领域，内容从视觉语言模型作为解释器，覆盖到模块化、一体化及主流的推理增强型VLA[11] - 课程要求参与者具备一定的自动驾驶基础、了解Transformer大模型、强化学习、BEV感知等概念，并拥有Python和PyTorch编程能力[10]

理想端到端自进化智能体系统CorrectAD

自动驾驶之心· 2025-12-09 08:03

文章核心观点 - 西湖大学、理想汽车与天津大学联合提出名为CorrectAD的自校正智能体系统，旨在通过自动化流程解决端到端自动驾驶模型的长尾故障问题，该系统通过PM-Agent分析故障原因并生成多模态数据需求，再通过DriveSora生成高保真训练数据，最终通过迭代微调持续优化模型，在nuScenes和内部数据集上分别实现了62.5%和49.8%的故障修复率，并将碰撞率降低了39%和27% [3][10][53][77] 当前行业痛点 - 手工收集罕见且危险的长尾故障（如低能见度碰撞）数据成本极高，需数周时间和数千美元，扩展性差 [5] - 现有检索式数据扩充方法（如AIDE）仅能从现有数据集中筛选相似场景，无法覆盖未见过的长尾故障，难以从根源修正模型缺陷 [6] - 现有驾驶场景生成模型（如MagicDrive）可控性差，无法精准匹配故障修正所需的特定场景特征，生成数据与故障关联性弱 [7] - 缺乏有效机制将端到端模型的故障案例转化为生成模型可理解的精准需求，导致生成的数据无法针对性解决问题 [8] CorrectAD系统核心架构与价值 - 系统首创“智能体析因→定向生成→迭代微调”的自校正范式，首个实现端到端自动驾驶故障自校正的智能体系统 [10][74] - 核心模块PM-Agent模拟产品经理角色，基于视觉语言模型进行多轮推理，分析故障原因并生成包含BEV布局和场景描述的多模态数据需求 [9][10] - 核心模块DriveSora是一个可控的多视图视频生成模型，基于STDiT架构，能生成与3D标注对齐的高保真自动驾驶场景视频 [9][10] - 系统采用模型无关设计，可适配UniAD、VAD等主流端到端规划器，无需为特定模型定制 [10][71] - 系统通过迭代自校正循环（故障分析→需求生成→数据生成→模型微调→评估）持续运行，使生成数据分布逐步逼近故障场景分布，实现性能持续优化 [9][73] - 其落地意义在于将故障修正周期从数周缩短至数天，大幅降低数据迭代成本，可直接集成到车企现有模型优化流程中 [10] PM-Agent（故障分析与需求制定）模块详解 - 首先对故障案例进行聚类分析，通过专家标注和GPT-4o提取关键词，最终将故障原因归类为“前景”、“背景”、“天气”三大类别 [18] - 采用多轮问询策略进行故障分类与细化：第一轮，视觉语言模型根据6视图视频和规划轨迹输出故障类别及置信度；第二轮，对高置信度类别进一步细化具体原因 [22] - 基于分析出的故障原因，利用大语言模型生成结构化的场景描述（如“雨天、低能见度、前车突然减速”） [25] - 通过语义检索从训练集中找到与场景描述匹配的真实场景，并提取其BEV布局，包括背景的道路边界线和前景的3D边界框坐标、航向角等信息 [27] - 将场景描述与BEV布局组合，形成驱动数据生成的多模态需求 [31] - 多轮推理策略显著提升了需求准确性，将需求与故障案例的语义距离从单步推理的4.66降至3.49，能更全面地覆盖故障关键因素 [33] DriveSora（高保真数据生成）模块详解 - 基础架构为时空扩散Transformer，并进行了多项关键技术优化 [35] - 通过集成ControlNet-Transformer，将BEV布局中的道路草图和3D边界框作为约束条件注入模型，实现生成视频与3D布局的精准对齐 [35][38] - 采用参数无关的多视图空间注意力机制，通过重塑特征并应用自注意力，使不同视图的特征在同一注意力窗口中交互，提升了多视图间车辆位置、航向角的一致性达15%，并降低了FVD指标2.8% [36][38] - 采用多条件无分类器引导技术，在训练和推理中联合优化文本、前景布局、背景布局等多个条件的对齐，强化了语义与布局的协同约束 [37] - 生成视频后，使用预训练的3D检测器进行自动3D边界框标注，并通过卡尔曼滤波平滑得到连续轨迹，输出格式与nuScenes数据集一致，可直接用于模型微调 [38][41] - 在生成质量上超越现有先进模型，FID为15.08，FVD为94.51，NDS为36.58，均达到SOTA水平 [54][70][77] 实验性能与关键发现 - 在nuScenes数据集上，CorrectAD将基线模型的碰撞率从0.35%降低至0.19%（降低39%），L2轨迹误差从1.25米改善至0.98米，故障修复率达到62.5% [53] - 在内部挑战性数据集上，CorrectAD将碰撞率从0.26%降低至0.19%（降低27%），L2误差从1.06米改善至0.62米，故障修复率达到49.8% [53] - 消融实验表明，完整CorrectAD系统性能最优，仅使用DriveSora（无PM-Agent）或仅使用PM-Agent（无DriveSora）均无法达到最佳效果，证明了双模块协同的价值 [58] - 多轮迭代效果显著：经过三轮迭代，生成数据与故障案例的分布差异（Hellinger距离）从0.15降至0.09，模型碰撞率从0.26%持续降至0.19% [47] - 定性结果显示，系统能有效修复如低能见度夜间碰撞等故障，且DriveSora生成的数据在多视图一致性、可控性（如车辆属性编辑、天气转换）方面表现优异 [60] 系统当前局限与未来方向 - 当前主要将碰撞视为故障，未涵盖车道违规、交通规则违反等更多故障类型 [68] - 生成效率有待提升，DriveSora模型参数量为1.1B，训练需8块A800 GPU耗时72小时，在L40S GPU上推理单样本需4秒 [68] - 对多智能体复杂博弈交互场景的生成能力不足 [68] - 未来方向包括扩展故障评估维度、集成快速扩散模型以提升生成效率、引入博弈论增强复杂场景生成能力，以及与真实车辆部署流程结合实现线上实时闭环迭代 [75]