蔚来智能驾驶系统

搜索文档
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
晚点Auto· 2025-10-09 20:17
文章核心观点 - 蔚来智能驾驶负责人任少卿认为,实现高级别自动驾驶和通用人工智能(AGI)的正确路径是构建以视频为核心的“世界模型”,并结合强化学习,而非当前行业主流的以语言模型为基础的端到端或VLA方案 [6][7][9][10] - 公司选择了一条技术更复杂、投入更高的路线,包括高算力平台(如4颗Orin芯片)、多传感器配置以及全新架构,旨在建立对物理世界时空认知的底层能力,短期内可能显得进展较慢,但长期看上限更高 [7][23][25][57] - 蔚来已建立起包括三层数据系统、三代首发平台和“4×100米接力”研发体系在内的核心能力,其工程能力和数据体系被认为是行业领先的,并已通过端到端AEB等技术验证了实际效果,如事故损失下降25% [34][36][42][44][45][54][63] 技术路径:世界模型与强化学习 - **对主流方案的批判**:端到端是智能驾驶发展阶段的产物,本质是“填坑”,将过去拆分的模块重新拼接;VLA本质是语言模型的模态扩展,根在语言上,但语言带宽低,无法承载现实世界的连续复杂性 [9][13][14][16] - **世界模型的定义与优势**:以视频为核心,直接学习时空和物理规律,建立高带宽的时空认知能力;与语言模型并行,前者解决“概念认知”,后者解决“时空认知”,两者融合才能实现AGI [10][11][13][27] - **强化学习的关键作用**:模仿学习只能解决短时序问题,强化学习能将系统从“5秒记忆的金鱼”进化为能处理长时序(30秒、60秒)规划的智能体,并能“清洗”海量但嘈杂的真实驾驶数据,提升模型能力 [7][28][29][31][32] - **与友商技术对比**:理想和小鹏的基座模型以语言模型为训练底座;华为的WA模型本质也是世界模型,只是表述不同;特斯拉是否构建世界模型尚不确定 [17] 研发与工程体系 - **数据系统**:建立三层数据系统——数据闭环系统(DLB)用于自动筛选数据;伴生系统用于大规模AB测试,每周测试里程达几千万公里;风险评估控制系统用于自动化分析每日数百万次接管数据 [36][42] - **工程能力**:三代智驾平台均实现全球首个芯片量产(Mobileye EyeQ4、英伟达Orin、自研神玑),团队仅大几十人,通过统一软件栈(仅保留CUDA底层,上层自研)支撑多平台,工程能力被锻炼得特别强 [54][55][56] - **研发组织“4×100米接力”**:第一棒预研团队专注将不确定性转化为确定性方案;第二棒量产团队负责将预研成果高质量交付;第三棒平台复制团队将功能适配到不同芯片平台;第四棒车型复制团队将方案快速部署到不同车型 [47][48][51][52][53] 产品化进展与目标 - **已实现成果**:2024年5月推送世界模型架构OTA更新;2023年底推出端到端AEB,经保险公司数据验证,事故损失下降25%;2025年5月在地库实现语言指令找出口功能,为国内首发 [22][40][44][45][63] - **近期规划**:计划在2024年底至2025年Q1推出Open-set开放集指令交互功能,使用户能通过自然语言与车辆自由交互,而非仅限于有限指令集,此举被认为将领先行业 [18][19][22] - **安全目标**:将主动安全置于最高优先级,下一个版本的目标是将事故损失降低50% [40][64][65] 战略选择与行业定位 - **硬件策略**:高算力平台(如4颗Orin)提供安全冗余、承载更多新功能且迭代更早;低算力平台(如乐道用1颗Orin)通过功能蒸馏和压缩实现主流体验,但最新功能会滞后 [45][46][50] - **发展节奏**:选择统一高速与城区方案的架构,虽初期开发量大、显得慢,但长期架构更干净、扩展性更好;跨大洲(中国和欧洲)同步量产也对研发和供应链构成极限压力 [25][39][43] - **核心优势**:底层平台、数据和工程能力经过三代架构锤炼;当前处于新架构(世界模型)初期,重点是将新架构潜力释放60%-80%;方向明确指向AGI,在更大技术语境下没有争议 [25][56][57][72]