自动驾驶之心 - 财报，业绩电话会，研报，新闻

自动驾驶之心

搜索文档

自动驾驶之心· 2025-12-25 14:42

以下文章来源于蚀刻AiTech ，作者蚀刻团队蚀刻AiTech . 智能驾驶十年老兵，走过四家公司，搞过芯片做过量产，写写行业新鲜事。期待刻录AI发展的重点时刻。从行业视角看，此事件标志着中国智能驾驶领域头部玩家的竞争烈度显著升级。过去几年，行业竞争焦点主要集中在技术路线、量产落地速度和融资规模上，是典型的商业与技术竞争。而此次该公司通过法律手段成功对"跳槽"至直接竞争对手的前员工进行追责并获法院支持，意味着头部玩家之间的博弈，正从单一的商业与技术维度，迅速延伸至人才保卫、商业秘密保护及法律合规等全方位、立体化的竞争层面。更多一手业内信息，欢迎加入自动驾驶之心知识星球... 自动驾驶之心来源 | 蚀刻AiTech 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文据蚀刻AiTech信息报道，某头部智驾公司近日通过内部全员通告，披露了一起针对前员工违反竞业限制义务的司法追责结果。通告显示，该前员工离职后隐匿身份加入竞对企业。该公司对此启动司法程序并追查到 ...

理想MindGPT-4o-Vision技术报告压缩版

自动驾驶之心· 2025-12-25 11:24

作者 | 理想TOP2 来源 | 理想TOP2 原文链接：理想MindGPT-4o-Vision技术报告压缩版点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文 2025年12月2日理想发布MindGPT-4ov技术报告链接： https://arxiv.org/abs/2512.02895 通用能力与垂直领域适配的权衡冲突。将通用多模态大模型（MLLM）迁移至垂直应用面临两个主要矛盾：灾难性遗忘 (Catastrophic Forgetting)：注入领域特定知识往往导致模型原有的通用理解能力（General Capabilities）退化。缺乏系统的后训练方法论：现有方法要么忽视数据质量与成本控制，要么在优化领域能力时牺牲了基础能力和用户体验，缺乏涵盖数据生产、训练到部署的全链路工程方案。当前多模态模型训练中存在的三个关键低效与偏差现象：资源分配粗放：传统数据合成方法通常对所有数据进行均等处理，忽视了数据本身信息密度的差异，导致高价值数据挖掘不足，低 ...

刚做了一份世界模型的学习路线图，面向初学者......

自动驾驶之心· 2025-12-25 11:24

世界模型与端到端自动驾驶的关系 - 世界模型并非端到端自动驾驶本身，而是实现端到端自动驾驶的一种途径[2] - 行业将自动驾驶世界模型的研究收敛于生成和重建两大领域[2] - 目前主流应用是利用世界模型进行闭环仿真，以应对Corner Case成本过高的问题[2] 世界模型课程核心内容架构 - 课程第一章概述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 课程第二章涵盖世界模型的基础知识，包括场景表征、Transformer、BEV感知等，是求职面试的高频技术点[5][6] - 课程第三章探讨通用世界模型，解析李飞飞团队Marble、DeepMind Genie 3、Meta JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 课程第四章聚焦视频生成类世界模型，讲解Wayve的GAIA-1 & GAIA-2、上交UniScene、商汤OpenDWM、中科大InstaDrive等算法，并以OpenDWM进行实战[7] - 课程第五章聚焦OCC生成类世界模型，讲解三大论文并进行一个项目实战，此类方法可扩展至自车轨迹规划[8] - 课程第六章分享世界模型在工业界的应用现状、行业痛点、期望解决的问题以及相关岗位的面试准备经验[9] 世界模型涉及的关键技术栈 - 基础技术包括Transformer、视觉Transformer、CLIP、LLaVA等多模态大模型基础[11] - 涉及BEV感知基础知识及占用网络[11] - 涵盖扩散模型理论，该模型是输出多模轨迹的热点技术[11] - 包括闭环仿真相关的NeRF和3DGS技术[11] - 也涉及其他生成式模型，如VAE、GAN以及Next Token Prediction[11] 世界模型相关的重要研究 - 国内重要研究包括清华的OccWorld、复旦的OccLLaMA、华科ICCV'25的HERMES以及西交的II-World[12] 课程目标与受众要求 - 课程目标是推动端到端自动驾驶在工业界的落地，助力从业者深入理解端到端技术[10] - 学员需自备GPU，推荐算力在4090及以上[13] - 学员需具备自动驾驶领域基础，熟悉其基本模块[13] - 学员需了解transformer大模型、扩散模型、BEV感知等基本概念[13] - 学员需具备一定的概率论、线性代数及Python、PyTorch基础[13] - 课程期望使学员达到约1年经验的自动驾驶算法工程师水平，掌握世界模型技术进展及BEV感知等关键技术，并能复现主流算法框架[13] 课程进度安排 - 课程于1月1日开课，预计两个半月结课，采用离线视频教学，提供VIP群答疑及三次线上答疑，答疑服务截止2026年12月31日[14] - 各章节解锁时间：第一章12月10日，第二章1月1日，第三章1月20日，第四章2月4日，第五章2月24日，第六章3月1日[15]

这篇大家关注很多的DriveVLA-W0，一作分享

自动驾驶之心· 2025-12-25 11:24

文章核心观点 - 文章旨在推广“自动驾驶之心”公众号，并引导读者关注以获取自动驾驶领域的学习资源[1] 公众号推广与资源 - 引导读者点击下方卡片关注“自动驾驶之心”公众号[1] - 公众号提供自动驾驶近30个方向的学习路线资源[1]

自动驾驶之心· 2025-12-25 11:24

文章核心观点 - 文章旨在组建一个专注于L4级别自动驾驶赛道的线上交流社群，社群关注焦点涵盖该领域的融资动态、技术发展以及多个具体应用场景的进展 [1] 社群关注方向 - 社群重点关注L4级别自动驾驶赛道的**融资活动**与**技术进展** [1] - 社群讨论范围覆盖**RoboTaxi（自动驾驶出租车）**、**RoboBus（自动驾驶巴士）**、**RoboVan（自动驾驶厢式车）**、**无人配送**、**无人矿卡**以及**无人重卡**等多个具体商业化应用方向 [1]

自动驾驶之心· 2025-12-24 17:22

文章核心观点 - 文章核心内容是推广一个专注于L4级自动驾驶赛道的线上交流社群该社群旨在汇集关注该领域的专业人士共同探讨融资、技术进展及多个具体应用场景的动态 [1] 社群定位与关注领域 - 社群主题明确聚焦于L4级自动驾驶赛道关注该领域的融资活动与技术发展进程 [1] - 社群讨论范围覆盖多个L4级自动驾驶的落地应用方向包括Robotaxi（自动驾驶出租车）、RoboBus（自动驾驶巴士）、RoboVan（自动驾驶厢式车）、无人配送、无人矿卡以及无人重卡等 [1] 社群加入方式 - 提供了具体的入群联系渠道需通过添加指定微信账号并按要求备注信息方可加入 [1]

业内首个RL+VLA汇总：强化学习如何推动 VLA 走向真实世界？

自动驾驶之心· 2025-12-24 17:22

文章核心观点 - 文章汇总了近期自动驾驶领域11篇结合视觉-语言-行动模型与强化学习的研究工作，指出行业研究重点已从传统的监督微调转向强化学习，以提升模型的泛化与推理能力，并解决幻觉问题 [2] - 这些研究来自全球顶尖高校与领先科技及汽车公司，代表了业界头部的研究方向 [2] 各研究模型核心贡献与性能总结 MindDrive (华中科技大学、小米汽车) - 核心贡献：提出双专家架构，通过决策专家进行场景推理与语言决策，动作专家将决策映射为轨迹，将连续动作空间转化为离散语言决策空间以提升在线强化学习效率 [6] - 性能表现：在Bench2Drive基准上，使用轻量级Qwen-0.5B模型实现了78.04的驾驶分数与55.09%的成功率，超越了同规模的最先进模型 [6] WAM-Diff (复旦大学、银王智能科技有限公司) - 核心贡献：采用离散掩码扩散迭代优化未来轨迹，结合稀疏混合专家架构和GSPO在线强化学习 [7] - 性能表现：在NAVSIM基准上实现了优异的性能 [7] LCDrive (得克萨斯大学奥斯汀分校、NVIDIA、斯坦福大学) - 核心贡献：设计潜在思维链推理机制，使用动作提议令牌与潜在世界模型令牌在向量空间模拟反事实未来，提升推理效率与精度 [12] - 性能表现：在PhysicalAI-AV数据集上验证，相比文本链推理基线，实现了更快推理、更优轨迹质量与更强的强化学习提升效果 [12] Reasoning-VLA (兰州大学、新加坡国立大学、中国科学技术大学、清华大学、新南威尔士大学) - 核心贡献：设计可学习动作查询与视觉语言模型跨注意力交互，支持一步并行生成连续轨迹；融合8个公开自动驾驶数据集构建统一训练数据以提升泛化能力 [13] - 训练策略：采用监督微调与强化学习两阶段训练，结合物理轨迹与车辆动力学奖励 [14] Alpamayo-R1 (NVIDIA) - 核心贡献：构建因果链数据集，提供高质量的决策接地因果推理轨迹；设计模块化架构，融合物理AI预训练的视觉语言模型骨干与流匹配轨迹解码器 [18] - 性能表现：实现99毫秒的实时推理延迟；在闭环仿真中，越野率降低35%，近距离接触率降低25% [18] AdaThinkDrive (清华大学、小米汽车、澳门大学、南洋理工大学、北京大学) - 核心贡献：设计“快速响应/慢速思考”双模式自适应推理机制，让模型根据场景复杂度动态选择直接预测或思维链推理 [20] - 性能表现：在Navsim基准测试中取得90.3的PDMS分数，较最优视觉基线提升1.7点，同时较“始终推理”基线减少14%推理时间 [20] AutoDrive-R² (阿里巴巴集团、昆士兰大学、兰州大学、凯斯西储大学) - 核心贡献：构建nuScenesR²-6K数据集，采用“观察-计算-逻辑推理-反思验证”四步逻辑链；设计融合空间对齐、车辆动力学和时间平滑性的物理基奖励框架 [25] - 性能表现：在nuScenes和Waymo数据集上实现最先进性能，7B版本平均L2误差低至0.20米，零样本迁移能力突出，较EMMA+等模型降低33.3%误差 [25] IRL-VLA (博世（中国）投资有限公司、上海大学、上海交通大学、博世汽车部件（苏州）有限公司、清华大学) - 核心贡献：提出轻量级奖励世界模型，基于逆强化学习从多模态数据中学习奖励结构，规避对仿真器的依赖；设计融合语义推理、3D推理与扩散规划器的视觉-语言-行动架构 [31] - 性能表现：在NAVSIM v2基准上取得最先进性能，并获得CVPR2025自动驾驶挑战赛亚军 [31] DriveAgent-R1 (上海启智研究院、理想汽车、同济大学、清华大学) - 核心贡献：首次将主动感知应用于高级行为规划，设计含检索视图、感兴趣区域检查等工具的视觉工具包；提出结合文本推理与工具增强推理的混合思维框架 [32] - 性能表现：仅3B参数就达到与GPT-5和人类驾驶相当的性能，在Drive-Internal测试集上使用工具后准确率提升6.07%，推理延迟较被动感知方法降低20%以上 [32] Drive-R1 (中国科学技术大学、华为诺亚方舟实验室) - 核心贡献：构建涵盖交通知识理解等五大领域的RP-COT数据集，提供长短链推理标注；设计基于GRPO的强化学习机制，结合多维度奖励对齐推理与规划 [37] - 性能表现：在nuScenes和DriveLM-nuScenes基准上实现最先进性能 [37] ReCogDrive (华中科技大学、小米汽车) - 核心贡献：设计生成、精炼、质控三阶段分层数据管道，构建大规模视觉问答数据集以注入驾驶先验；提出认知引导扩散规划器，将视觉语言模型语义转化为连续轨迹 [38] - 性能表现：在NAVSIM等基准实现最先进性能 [38]

下周开课！我们设计了一份自动驾驶世界模型学习路线图....

自动驾驶之心· 2025-12-24 17:22

自动驾驶世界模型技术趋势与课程核心内容 - 世界模型并非端到端自动驾驶本身，而是实现端到端自动驾驶的一种途径[2] - 当前行业将自动驾驶世界模型的研究收敛于生成和重建两大领域，并主要用于闭环仿真[2] - 行业正经历风格转换，因处理Corner Case成本过高，需寻求更有效的手段[2] - 近期世界模型相关研究呈现爆发式增长[2] 课程结构与核心知识点 - 课程共分六章，从概述、背景知识到专题应用，系统讲解世界模型[5][6][7][8][9] - 第一章阐述世界模型与端到端自动驾驶的联系、发展历史、应用案例及不同技术流派[5] - 第二章涵盖世界模型所需基础技术栈，包括场景表征、Transformer、BEV感知等[5] - 第三章聚焦通用世界模型，解析Marble、Genie 3、JEPA、DriveVLA-W0及特斯拉世界模型模拟器等前沿工作[6] - 第四章专注视频生成类世界模型，涵盖GAIA-1、GAIA-2、UniScene、OpenDWM、InstaDrive等，并以OpenDWM进行实战[7] - 第五章讲解基于OCC生成的世界模型，涉及OccWorld、OccLLaMA、HERMES、II-World等三大论文及一个项目实战[8][12] - 第六章为工业界应用与岗位专题，分享行业痛点、应用现状及面试准备经验[9] 课程技术深度与目标人群 - 课程深度覆盖BEV感知、多模态大模型、3DGS、扩散模型、NeRF、VAE、GAN等关键技术[11] - 课程面向具备一定自动驾驶基础、了解Transformer/扩散模型/BEV感知基本概念、有Python/PyTorch基础的学习者[13] - 学习目标为使学员达到约1年经验的自动驾驶世界模型算法工程师水平，能够复现主流算法并应用于实际项目[13] - 课程为离线视频教学，配备VIP群答疑及三次线上答疑，答疑服务截止2026年12月31日[14] - 课程自1月1日开课，预计两个半月结课，各章节按计划在12月10日至次年3月1日期间逐步解锁[14][15]

自动驾驶之心元旦活动开启（星球六折/课程七五折/论文辅导等）

自动驾驶之心· 2025-12-24 11:29

促销活动概览 - 公司于12月24日至1月5日期间开展限时促销活动 [1] - 促销活动主要涵盖付费课程、社区会员及项目辅导服务 [1] 付费课程与社区促销 - 所有自驾课程提供75折优惠但量产课程除外 [1] - 知识星球社区对新加入成员提供6折优惠对老学员续费提供5折优惠 [1][3] - 活动期间自驾课程累计消费满4000元将获赠一门自驾高质量课程 [1] 论文与项目辅导服务 - 公司提供论文辅导服务价格为1000元 [1] - 公司提供项目辅导服务价格为12000元 [1] - 项目辅导包含1对1求职辅导目前处于优惠促销中 [1] 咨询渠道 - 公司提供助理联系方式供客户咨询活动详情 [4]

刷完英伟达今年所有的项目后，我们推荐这几个......

自动驾驶之心· 2025-12-24 11:29

英伟达的战略定位与市场表现 - 公司已成为人工智能基础设施领域的首要巨头，其市值在2025年10月底达到5万亿美元，是3年前的11倍[2] - 公司已完成从图形芯片到人工智能巨头的演进，关键节点包括1999年推出GeForce 256、2006年CUDA问世、2012年支持AlexNet、2020年开始发布高端计算GPU以及2021年开始发布端侧芯片[2] - 公司的战略野心已超越硬件公司范畴，在2025年于自动驾驶、具身智能、大模型和世界模型等最热门的人工智能赛道上产出了多篇重量级工作[2] 世界模型与仿真平台 (Cosmos系列) - **Cosmos平台**：作为世界基础模型平台，旨在为物理人工智能提供可高效微调的世界仿真基础，其核心贡献包括构建了大规模视频数据管理流程、提出高效视频标记器、开发基于扩散与自回归的可扩展世界基础模型架构，并展示了模型在多种物理人工智能任务中的后训练适应性[39] - **Cosmos-Predict2.5**：新一代物理人工智能视频世界基础模型，与其控制网络变体Cosmos-Transfer2.5基于流匹配架构，统一了文本、图像、视频到世界的生成能力，在视频质量、指令对齐与长视频生成一致性上实现显著提升[17] - **Cosmos-Transfer1**：一个基于扩散模型的多模态可控世界生成框架，通过自适应空间-时间控制权重机制，能根据不同模态输入生成高质量的世界仿真视频，特别适用于机器人仿真到现实迁移与自动驾驶数据增强[37] - **Cosmos-Reason1**：旨在赋予多模态大语言模型“物理常识”与“具身推理”能力，通过定义层次化的物理常识与具身推理本体，并采用“监督微调+强化学习”的两阶段训练范式，使模型能基于视频输入进行长链条思维推理[32] 具身智能与机器人 (GR00T & Isaac Lab) - **GR00T N1**：一个面向通用人形机器人的开放式视觉-语言-动作基础模型，采用双系统架构，并通过构建包含真实机器人数据、仿真轨迹、人类视频与神经生成视频的“数据金字塔”进行大规模预训练，实现了跨机器人平台的强泛化能力[35] - **Isaac Lab**：一个GPU加速的机器人学习仿真框架，构建了集高保真物理、照片级渲染与模块化环境设计于一体的GPU原生仿真平台，旨在系统性解决机器人学习中的数据稀缺、仿真到现实鸿沟及大规模多模态策略训练等核心挑战[6] 多模态大语言模型 (Nemotron系列) - **Nemotron-H系列**：采用创新的混合Mamba-Transformer架构，用计算和内存需求恒定的Mamba层替代绝大部分自注意力层，在保证与顶尖开源Transformer模型相当或更优精度的前提下，实现了高达3倍的推理速度提升[27][28] - **Nemotron Nano 2**：一款面向推理任务的高效混合架构语言模型，通过结合Mamba-2层与自注意力层，在保持高精度的同时，实现了最高达6倍的推理吞吐量提升，并支持128k长上下文推理[26] - **Nemotron Nano V2 VL**：一个高效的120亿参数视觉语言模型，通过混合Mamba-Transformer架构、多阶段训练策略和高效推理优化，在文档理解、长视频推理等多模态任务中实现了领先性能[12] 自动驾驶 (Alpamayo-R1) - **Alpamayo-R1**：一种融合因果推理与轨迹规划的视觉-语言-动作模型，旨在解决端到端自动驾驶在长尾安全关键场景中的性能瓶颈，通过结构化因果链数据集、模块化架构与强化学习后训练，显著提升了规划安全性与决策可解释性[13][16] - 在闭环仿真与实车测试中，相比仅预测轨迹的基线模型，Alpamayo-R1在挑战性场景中规划准确率提升最高达12%，脱轨率降低35%，近距离接触率降低25%，推理质量与推理-动作一致性分别提升45%与37%[16] 底层技术与训练优化 - **NVFP4训练方法**：针对大型语言模型预训练的挑战，提出并验证了一种基于新型4位浮点格式NVFP4的高效训练方法，通过混合精度、随机哈达玛变换等关键技术，成功在120亿参数模型上进行了长达10万亿token的稳定训练，首次证实了4位精度在万亿token规模预训练中的可行性[19] - 在120亿参数模型的预训练中，使用NVFP4格式的验证损失与FP8基线全程紧密吻合，相对误差小于1.5%[19] - 对比实验证明，NVFP4在达到相同训练损失时，所需的训练token数比MXFP4少约36%[19] 数字人与生成式人工智能应用 - **Audio2Face-3D**：一个基于深度学习的端到端音频驱动三维面部动画系统，能够从单一语音输入实时生成高保真、口型同步且带情感表达的全脸动画，并支持多身份适配与流式推理[21]