任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
晚点LatePost·2025-10-09 18:14

文章核心观点 - 蔚来智能驾驶负责人任少卿认为,智能驾驶的未来在于构建“世界模型”并结合强化学习,这是一条比当前行业主流的“端到端”和“VLA”模型更艰难但上限更高的技术路径,旨在实现真正的通用人工智能[4][5][8] - 蔚来选择了一条高算力、多传感器、全新架构的激进技术路线,短期内面临开发周期长、进展慢的挑战,但长期看有望构建起接近物理世界的认知能力,形成核心竞争优势[5][21][23] - 公司将安全视为最高优先级,通过自建三层数据系统和引入端到端模型,已实现事故损失下降25%,并设定了年内再降50%的目标,体现了技术的社会价值[42][61][62] 技术路径与架构 - 对主流技术的批判与超越:认为端到端模型是智能驾驶特定历史阶段的产物,本质是“填坑”,其能力止步于短时序问题[4][7];VLA模型虽整合了视觉、语言和动作,但核心仍是低带宽的语言模型,无法承载现实世界的连续复杂性[4][11][12] - 世界模型的核心主张:以视频为底座,建立高带宽的“时空认知”能力,内建物理规律(如重力、惯性)和理解时空运动的能力,与语言模型的“概念认知”并行,最终融合走向AGI[8][9][14] - 强化学习的关键作用:智驾行业尚未完全接受强化学习的重要性,其能“清洗”海量但嘈杂的量产数据,并将系统的规划能力从模仿学习的“5秒记忆”扩展到处理长时序决策,是实现真正智能体的关键[5][27][29][30] - 与同行的技术差异:理想和小鹏的基座模型以语言模型为训练底座,华为的WA模型本质是世界模型但强调点不同,蔚来是国内首个提出并量产世界模型架构的公司,并在该架构内实现了VLA[15][20][31] 研发体系与工程能力 - 三代首发平台的经验:公司历经三代智驾平台全球首发(Mobileye EyeQ4、英伟达Orin、自研神玑芯片),克服了芯片首发的大量工程难题,锻炼出强大的工程能力[52][53] - 独特的三层数据系统:构建了DLB(数据闭环)、伴生测试系统、RAMS(风险评估控制)三层系统,实现了数据自动筛选、大规模AB测试和每日数百万次接管的自动化分析,支撑快速迭代[34][36][40] - “4×100米接力”研发组织:将研发流程细化为预研、量产、平台复制、车型复制四个明确阶段,形成“铁打的营盘”,职责清晰,提升整体效率[45][46][49] - 自研软件栈优势:在英伟达Orin平台上,仅保留最底层的CUDA,其上工具链全部自研,为自研芯片的平滑对接和快速量产奠定了基础[54] 产品进展与战略选择 - 统一架构的长期主义:在2022年同时推进国内和欧洲量产时,选择将高速与城区功能统一到一套架构下推倒重来,而非采用两套方案追求短期速度,虽初期进度慢但长期架构更干净[37][41] - 安全优先的产品策略:优先推动端到端AEB功能上线,通过真实数据覆盖将场景响应率从不足10%提升至70%-80%,已验证事故损失下降25%,将社会价值置于即时用户体验之前[38][39][42] - 高算力平台的差异化:高算力平台(如4颗Orin)提供安全冗余、承载新功能先行开发,再通过技术蒸馏迁移至低算力平台,用户体验基本无差异但功能上线有先后[43][44][48] - 开放集交互的规划:计划在2024年底至2025年Q1推出Open-set(开放集指令交互),使用户能像与真人司机一样用自然语言随意下达指令,而非局限于有限指令集,这将是国内首个此类量产功能[16][17][20] 行业竞争与未来展望 - 对竞争态势的判断:认为明年行业竞争将聚焦于基于世界模型的长时序能力建设,并明显向L3/L4级功能迈进[55] - 公司的核心优势:扎实的数据与工程体系、经受三代平台考验的团队、以及在新架构上的先行布局,是应对未来竞争的基础[51][54][70] - 人才吸引的立足点:为年轻技术人才提供世界模型这一AGI早期领域的探索机会、海量真实数据、成熟工程体系及产品快速落地的平台,是吸引顶尖人才的关键[69][70]