Workflow
训练闭环
icon
搜索文档
2025年几家自动驾驶公司的采访总结
自动驾驶之心· 2026-01-22 17:07
核心观点 - 自动驾驶行业在核心算法层面已形成共识,即采用端到端(End-to-End)作为基础架构,并引入世界模型(World Model)作为关键基础设施 [6][7][10] - 行业在顶层认知上出现路线分歧,主要围绕是否在端到端模型中引入语言模型(即VLA与WA/反VLA之争),这本质上是计算效率与推理能力(快思考 vs 慢思考)的不同权衡 [7][11] - 未来三年是现有深度学习范式的“极致优化期”,核心在于通过海量数据驱动能力自然生长,而非理论重构 [7] - 行业竞争已超越单纯算法模型之争,研发基建、数据仿真、算力芯片、工程化能力及用户体验等非技术因素成为决定成败的关键变量 [13] 核心技术路线 端到端 (End-to-End) - 是自动驾驶的底层基座,替代了传统的模块化方案,直接从传感器输入映射到控制输出 [1][10] - 一段式端到端(One-Stage E2E)已被验证可行(如特斯拉FSD V12),统一了L2和L4的开发范式 [7] - 其局限性主要是“模仿学习”,能力上限受限于训练数据,缺乏逻辑推理 [12] 世界模型 (World Model) - 是核心算法演进中的关键基础设施,扮演“中间加速器”的角色 [7][10] - 主要作用分为两方面: - **对内(训练)**:作为“超级模拟器”,生成大量合成数据以解决长尾问题,并让端到端模型在虚拟环境中通过强化学习反复试错迭代,实现从“数据闭环”到“训练闭环”的演进 [2][8][11][18] - **对外(推理)**:作为“预测机”,帮助车辆理解物理规律和因果关系,直接指导动作生成 [9][11] - 3DGS(3D Gaussian Splatting)是构建高保真仿真环境的重要技术 [3] 视觉-语言-动作模型 (VLA) 与 世界-动作模型 (WA) - **VLA派(理想、英伟达)**:认为需要引入大语言模型赋予车辆逻辑推理(Chain of Thought)和解释能力,以处理复杂、罕见的长尾场景(System 2,慢思考) [9][11][12] - **WA/反VLA派(华为、小鹏)**:认为驾驶主要是直觉反应,引入语言环节会增加延迟和算力负担,主张直接从世界模型理解映射到动作(System 1,快思考) [9][11] - **务实派(小米)**:当前主推“端到端+世界模型+强化学习”解决直觉问题,内部预研VLA以备复杂推理需求,追求“智能密度”最大化 [9][11] 主要公司技术选择对比 | 公司 | 核心技术路线选择 | 核心逻辑与观点 | 世界模型/仿真工具的角色 | | :--- | :--- | :--- | :--- | | **理想汽车** | VLA (Vision-Language-Action) | 认知驱动,认为需从“模仿”进化到“自己学会”,单纯数据闭环不够,必须走向训练闭环 [9] | 利用《World4Drive》等模型构建可探索的虚拟世界,进行策略优化,是训练闭环的核心 [9] | | **英伟达 (NVIDIA)** | 物理AI + VLA (Alpamayo) | 强调AI的可解释性与推理能力,不仅要会开,还要能解释决策,并强调“Test time Scaling”(让AI多思考一会儿) [9] | 使用Omniverse & Cosmos生成合成数据和进行物理模拟,训练车辆学习物理定律 [9] | | **小米汽车** | 端到端 + 世界模型 + 强化学习 (预研VLA) | 智能密度最大化,当前方案优先解决“直觉”(System 1)问题,VLA类似“看悬疑片”(System 2),仅用于极复杂场景,不制造技术焦虑 [9][17] | 使用高保真模拟器进行强化学习训练,解决实车难以覆盖的长尾场景 [9] | | **地平线** | 一段式端到端 (One-Stage) | 范式统一,认为FSD V12证明了端到端的可行性,未来三年是“极致优化期”,旨在统一L2与L4的开发范式 [9] | 未详细展开,主要强调通过统一范式和低成本部署打通壁垒 [9] | | **华为 / 小鹏** | WA (World Action) / 反VLA | 去语言化,认为驾驶主要是直觉反应,不需要经过语言环节,以降低延迟和算力负担 [9] | 利用世界模型理解环境演变,直接指导动作生成 [9] | 非核心技术关键因素 研发基建与工程效率 - 基建(以数据为核心的研发效能)决定迭代速度,好的基建能大幅提升研发效率,例如小米能在一年内实现“追三代”的技术跨越,核心在于云端基建的复用和自动化率提升 [3][18] - 基建的好坏取决于发现问题后,能否迅速从海量数据中挖掘出类似场景,并形成高质量标注数据进行训练 [18] - 强化工程能力和组织能力被视为公司的“工业母机”,是应对技术范式变化的确定性方法 [18] 仿真与合成数据 - 仿真成为解决长尾问题(Corner Case)的核心,单纯依赖真实路测数据已无法满足需求 [14] - 合成数据价值极高,例如在小米的训练数据中,仿真数据占比约为20%,但节省了数倍的人力成本 [18] - 英伟达通过Cosmos世界模型生成符合物理定律的合成数据来训练自动驾驶模型 [18] - 理想汽车等公司强调从“数据闭环”走向“训练闭环”,让AI在虚拟世界中进行强化学习,自我探索最优策略 [18] 算力规模与芯片适配 - 智驾是算力和硬件的“暴力美学”,计算机工业的本质就是“玩命堆算力” [15][18] - 英伟达发布Rubin平台以应对每年增长5倍的AI推理需求,旨在将推理成本降低至原来的1/10 [18] - 算法上车面临巨大的“部署偏差”,从一颗芯片迁移到另一颗芯片通常需要6-10个月解决算子支持、计算精度对齐等问题,这种高昂的迁移成本构成了芯片厂商的护城河 [18] - 随着AI进行长序思考(System 2),车载芯片的“显存”面临巨大挑战 [18] 商业化成本与泛化能力 - 技术再先进也需考虑成本,智驾系统的目标是将L4级体验以极低的部署成本普及到10万元级别车型 [18] - 新一代端到端技术通过数据驱动,在一个复杂城市验证后,能大概率泛化到整个国家,极大地降低了扩张成本 [18] 用户体验与安全冗余 - 技术先进性不等于体验更好,必须在收益和风险之间取得平衡,避免为了“显摆技术”而制造焦虑 [17] - 安全机制至关重要,即便是激进的端到端方案也需要安全兜底,例如英伟达的方案中包含了一个经典的规则驱动AV栈作为安全护栏,在端到端模型信心不足时回退 [19]
理想下一步的重点:从数据闭环到训练闭环
自动驾驶之心· 2025-12-14 10:03
理想汽车智能驾驶技术发展路线 - 公司智能驾驶发展经历了四个阶段:规则时代的轻图和无图方案、基于AI的端到端(E2E)与视觉语言模型(VLM)快慢双系统、以及最新的VLA司机大模型 [6] - 在技术演进过程中,导航(Nav)模块是重点突出的部分 [6] 数据闭环的现状与能力 - 公司已建立完整的数据闭环流程:影子模式验证→数据触发回传→云端数据挖掘→自动标注→生成训练集训练模型→模型下发验证性能 [9] - 数据回传过程已能做到一分钟内完成 [10] - 公司目前积累了15亿公里的驾驶数据,并使用200多个触发器(Trigger)来生产15-45秒的片段(Clip)数据 [11] - 端到端量产版本的MPI(平均无干预行驶里程)已达到220公里以上,相比2024年7月底的版本提升了约19倍 [13] 数据闭环的局限与行业新阶段 - 仅靠数据闭环无法解决所有问题,尤其是长尾场景的收敛问题,例如交通管制、烟花燃放、突然变道等 [16] - 行业观点认为,自动驾驶已进入“下半场”,需要从“数据闭环”演进到“训练闭环” [18][21] 训练闭环的核心架构与关键技术 - L4级别训练循环的核心是VLA司机大模型、强化学习(RL)和世界模型(WM)的结合 [23] - 轨迹优化由VLA的扩散模型和基于世界模型的强化学习共同完成 [23] - 强化学习不仅包括RLHF,还扩展至RLVR和RLAIF [23] - 世界模型主要用于场景重建和新视角复原 [23] - 闭环自动驾驶训练的关键技术栈包括:区域级别的仿真、合成数据和强化学习 [24] 仿真与场景重建技术 - 仿真依赖于场景重建技术,包括:视觉/激光雷达重建、区域重建、多趟重建、场景编辑和风格迁移 [26] - 公司在重建方面已有两年工作积累,并发表了两篇顶会论文 [28] - 近期技术方案从重建发展到生成,例如Feedforward 3D高斯泼溅(3DGS)技术,无需点云初始化,可直接从视觉输入得到结果 [29] - 在联合重建与生成方面也有一篇顶会论文 [32] 合成数据生成与应用 - 合成数据依赖于多模态生成技术,包括:视频/点云生成和神经渲染 [26] - 公司在生成方面的工作已产出三篇顶会论文 [34] - 生成技术的应用涵盖场景编辑、场景迁移和场景生成 [36] - 公司在新的训练数据配比上做了大量工作 [38] 训练闭环的挑战与系统能力 - 可交互的智能体(Agent)是构建训练闭环的关键挑战 [40] - 系统能力是增强引擎的关键,包括:世界模型提供仿真环境、3D资产构建多样化场景、仿真智能体(SimAgents)进行交互式行为建模、奖励模型提供准确的反馈泛化能力、以及GPU工程加速推理 [41] 成果总结 - 公司在相关领域已取得成果并获得奖励 [45]
ICCV涌现自动驾驶新范式:统一世界模型VLA,用训练闭环迈向L4
量子位· 2025-11-08 12:10
自动驾驶技术范式转变 - 行业共识自动驾驶技术进入下半场,技术范式从端到端架构转向强化学习[6][8] - 端到端架构统一技术栈释放Scaling Law潜力,但模仿学习只能达到数据平均水平难以超越人类司机[6][8] - 特斯拉和理想汽车在ICCV 2025共同展示以云端生成式世界模型为新基座的趋势[2] 理想汽车训练闭环架构 - 公司构建全球首个世界模型与强化学习闭环量产自动驾驶架构,从数据闭环迈向训练闭环[11] - 训练闭环通过环境生成和反馈迭代实现设定目标,覆盖边缘场景提升模型性能[8][11] - 世界模型系统包含环境构建、智能体构建、反馈构建和场景多推演三大能力[13] 仿真技术路径与成果 - 采用重建与生成结合的仿真路线,重建保证稳定性,生成增强泛化性[14][15][16] - 联合研发的Street Gaussians算法被ECCV 2024收录,Hierarchy UGP实现SOTA大规模动态场景重建[17][19][21] - 生成方式占比将不可逆增加,因能低成本大规模生成多样边缘场景数据[23] 合成数据与强化学习引擎 - 合成数据通过场景编辑、迁移和全场景生成使数据分布均衡,覆盖更多极端复杂案例[23] - 强化学习世界引擎包含仿真智能体、奖励模型和性能优化五大关键因素[25][31] - 仿真智能体建模多车交互行为比实现单车L4更难,公司通过目标函数和奖励函数约束智能体行为[27] 研发投入与底层技术突破 - 2023年和2024年全年研发投入连续超百亿元,2025年上半年研发投入为53亿元[33] - 自研整车操作系统理想星环OS实现软硬件解耦,芯片适配验证加快至4周内[33] - 星环OS采用跨系统架构,在120km/h时速下缩短7米刹停距离,降低几十亿元BOM成本[35][39] 开源生态与学术认可 - 星环OS开源后与16家产业链玩家组建生态联盟,帮助行业节省数亿元研发预算[36][39] - 开源数据集3DRealCar包含2500辆真实汽车,每辆车200张高分辨率RGB-D图像,被AI顶会ICCV收录[40][43] - 研究成果如DriveVLM已落地量产,形成研产闭环能力快速转化预研成果[52] 公司战略定位与竞争优势 - 公司重新定义为空间机器人企业,具备造车基本盘、VLA技术、顶会级预研和研产闭环四大优势[48][50][51][52] - 同时实现算法训练闭环、商业化闭环和研产闭环,在车企底色AI公司中与特斯拉并列领先[52][53]
理想ICCV'25分享了世界模型:从数据闭环到训练闭环
自动驾驶之心· 2025-11-07 08:05
公司智能驾驶技术发展路线 - 公司智能驾驶发展经历了从规则时代的轻图和无图方案 到基于人工智能的端到端+视觉语言模型快慢双系统和视觉语言自动驾驶方案 导航模块在四个方案中均为重点 [6] - 公司端到端量产版本的MPI已达到220+ 相比2024年7月底的版本提升了约19倍 [13] 数据闭环流程与规模 - 完整的数据闭环流程包括:影子模式验证、数据触发回传至云端、数据挖掘、有效样本自动标注、生成训练集训练模型、模型下发验证性能 [9] - 数据回传过程可在一分钟内完成 [10] - 公司已积累15亿公里的驾驶数据 通过200多个触发器生产时长15至45秒的片段数据 [11] 自动驾驶下半场:从数据闭环到训练闭环 - 行业观点认为自动驾驶进入下半场 核心玩法从数据闭环转向训练闭环 [18][21] - L4级训练循环的核心技术栈为视觉语言自动驾驶+强化学习+世界模型 轨迹由视觉语言自动驾驶的扩散模型和基于世界模型的强化学习共同优化 强化学习包括RLHF、RLVR和RLAIF [23] - 训练闭环关键技术栈包括区域级别仿真、合成数据和强化学习 [24] 训练闭环关键技术细节 - 仿真依赖场景重建技术 包括视觉/激光雷达重建、区域重建、多趟重建、场景编辑和风格迁移 [26] - 合成数据依赖多模态生成技术 包括视频/点云生成和神经渲染 [26] - 强化学习依赖智能体、3D资产以及评测与奖励模型 [26] - 可交互的智能体是训练闭环的关键挑战 [40] - 系统能力是世界模型增强引擎的关键 包括仿真环境、3D资产构建多样化场景、交互式行为建模、奖励模型反馈泛化能力及GPU工程加速推理 [41] 公司在重建与生成领域的进展 - 公司在重建领域已有两篇顶会论文成果 [28] - 公司技术方案从重建发展到生成 其中Feedforward 3DGS方案无需点云初始化 可直接由视觉输入得到结果 [29] - 公司在联合重建与生成领域有一篇顶会论文 [32] - 公司在生成领域有三篇顶会论文成果 [34] - 生成技术的应用包括场景编辑、场景迁移和场景生成 [36]
理想ICCV'25分享了世界模型:从数据闭环到训练闭环
自动驾驶之心· 2025-10-30 08:56
公司智能驾驶发展路线 - 公司智能驾驶发展经历了从规则时代的轻图和无图,到基于AI的E2E+VLM快慢双系统,再到VLA司机大模型的演进 [6] - 在以上四个方案中,导航模块是重点突出的部分 [6] 数据闭环系统能力 - 公司数据闭环流程包括影子模式验证、数据触发回传、云端数据挖掘、自动标注、生成训练集训练模型及模型下发验证 [9] - 数据回传过程已实现一分钟内完成 [10] - 公司目前拥有15亿公里的驾驶数据,并通过200多个触发器生产15-45秒的片段数据 [10] - 端到端量产版本的MPI已达到220+,相较于24年7月底版本提升了约19倍 [12] 自动驾驶下半场战略转向 - 行业观点认为自动驾驶已进入下半场,需从数据闭环转向训练闭环的新模式 [17][20] - 数据闭环存在局限性,难以完全解决长尾场景收敛问题,例如交通管制、烟花燃放和突然变道等场景 [15] 训练闭环核心技术栈 - L4级训练循环的核心由VLA司机大模型、强化学习和世界模型构成 [22] - 轨迹优化结合了VLA的Diffusion技术和基于世界模型的强化学习 [22] - 强化学习范畴不仅包括RLHF,还涵盖RLVR和RLAIF [22] - 世界模型主要用于场景重建和新视角复原 [22] - 闭环自动驾驶训练关键技术栈包括区域级别仿真、合成数据和强化学习 [24] 仿真与生成技术进展 - 仿真依赖场景重建技术,具体包括视觉/Lidar重建、区域重建、多趟重建、场景编辑和风格迁移 [25] - 合成数据通过多模态生成技术获取,如视频/点云生成和神经渲染 [25] - 强化学习依赖于智能体、3D资产以及评测和奖励机制 [25] - 公司在重建到生成的方案上取得进展,例如Feedforward 3DGS技术可直接由视觉输入得到结果,无需点云初始化 [26] - 公司在重建领域有两篇顶会论文,联合重建与生成领域有一篇顶会论文,生成领域有三篇顶会论文 [26][29][31] - 生成技术的应用涵盖场景编辑、场景迁移和场景生成 [33] - 公司在数据配比方面进行了大量优化工作 [35] 训练闭环关键挑战与系统能力 - 可交互的智能体是实现训练闭环的关键挑战 [37] - 系统能力作为增强引擎,世界模型提供仿真环境,3D资产构建多样化场景,模拟智能体进行交互式行为建模,奖励模型提供准确反馈以增强泛化能力,GPU工程加速推理过程 [38]