Workflow
时空认知
icon
搜索文档
蔚来任少卿:世界模型解决的是时空认知,VLA做不到。
自动驾驶之心· 2025-10-10 07:32
智能驾驶技术路线分析 - 智能驾驶真正的上限在于世界模型,即以视频为核心,通过跨模态预测和重建学习时空物理规律,再叠加语言层进行交互和知识注入[2] - 世界模型解决时空认知问题,而语言模型解决概念认知问题,语言模型因低带宽和稀疏性无法有效建模真实四维时空[2] - 视觉语言模型本质是语言模型的模态扩展,根基仍在语言模型上,像是在原有体系上不断"加模态"[3] - 世界模型旨在建立高带宽认知系统,直接在视频端建立能力而非先转成语言,类似人类眼睛带来的高带宽视觉体验[3] - 自动驾驶终极目标是通过开放集智能引擎实现真正开放式交互,用户可随意表达指令而非局限于有限指令集[3] - 华为本质上也在做世界模型,蔚来去年七月份前已提出此概念,VLA/WA等名称差异关键看是否真正建立时空认知能力[5] 语言模型在智能驾驶中的价值 - 语言模型能内建物理规律如重力、惯性和速度变化,形成模型内部基础认知[6] - 语言模型具备时空操作能力,可理解和预测物体在三维空间加时间维度的运动如车辆绕行[6] - 语言模型吸收海量互联网案例数据,尤其有代表性复杂场景对自动驾驶训练非常有帮助[7] - 通过链式推理语言模型带来逻辑推理能力,弥补世界模型尚未建立的细粒度推理[7] - 自然语言接口使人机交互更直接,用户可像与司机沟通一样告诉车具体行驶指令[7] - 语言模型提供概念认知,世界模型提供时空认知,两者结合将最终走向通用人工智能[8] 自动驾驶行业现状与社区资源 - 自动驾驶领域高度内卷,前沿技术栈趋于收敛,量产方案趋同,行业面临破局需求[9] - 行业变革期真正留在行业内的需综合型人才,技术栈丰富,仅抱"捞一波"心态难以长久[9] - 自动驾驶之心知识星球已运营三年,集视频图文学习路线问答求职为一体,目前超过4000人[11] - 社区联合学术界工业界大佬,梳理近40+技术路线,涵盖VLA benchmark、综述和入门路线[12] - 社区提供全栈方向学习课程,适合0基础小白,涵盖感知融合、多传感器标定、SLAM等高精地图等[18] - 社区与多家自动驾驶公司建立内推机制,可第一时间将简历送至心仪公司[18] - 社区汇总国内外知名高校实验室和自动驾驶公司,供读研申博博后参考[37][39] - 社区针对热点领域如端到端自动驾驶、3DGS与NeRF、世界模型、VLM等做了详细技术梳理[47][49][52][54]
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
晚点LatePost· 2025-10-09 18:14
文章核心观点 - 蔚来智能驾驶负责人任少卿认为,智能驾驶的未来在于构建“世界模型”并结合强化学习,这是一条比当前行业主流的“端到端”和“VLA”模型更艰难但上限更高的技术路径,旨在实现真正的通用人工智能[4][5][8] - 蔚来选择了一条高算力、多传感器、全新架构的激进技术路线,短期内面临开发周期长、进展慢的挑战,但长期看有望构建起接近物理世界的认知能力,形成核心竞争优势[5][21][23] - 公司将安全视为最高优先级,通过自建三层数据系统和引入端到端模型,已实现事故损失下降25%,并设定了年内再降50%的目标,体现了技术的社会价值[42][61][62] 技术路径与架构 - **对主流技术的批判与超越**:认为端到端模型是智能驾驶特定历史阶段的产物,本质是“填坑”,其能力止步于短时序问题[4][7];VLA模型虽整合了视觉、语言和动作,但核心仍是低带宽的语言模型,无法承载现实世界的连续复杂性[4][11][12] - **世界模型的核心主张**:以视频为底座,建立高带宽的“时空认知”能力,内建物理规律(如重力、惯性)和理解时空运动的能力,与语言模型的“概念认知”并行,最终融合走向AGI[8][9][14] - **强化学习的关键作用**:智驾行业尚未完全接受强化学习的重要性,其能“清洗”海量但嘈杂的量产数据,并将系统的规划能力从模仿学习的“5秒记忆”扩展到处理长时序决策,是实现真正智能体的关键[5][27][29][30] - **与同行的技术差异**:理想和小鹏的基座模型以语言模型为训练底座,华为的WA模型本质是世界模型但强调点不同,蔚来是国内首个提出并量产世界模型架构的公司,并在该架构内实现了VLA[15][20][31] 研发体系与工程能力 - **三代首发平台的经验**:公司历经三代智驾平台全球首发(Mobileye EyeQ4、英伟达Orin、自研神玑芯片),克服了芯片首发的大量工程难题,锻炼出强大的工程能力[52][53] - **独特的三层数据系统**:构建了DLB(数据闭环)、伴生测试系统、RAMS(风险评估控制)三层系统,实现了数据自动筛选、大规模AB测试和每日数百万次接管的自动化分析,支撑快速迭代[34][36][40] - **“4×100米接力”研发组织**:将研发流程细化为预研、量产、平台复制、车型复制四个明确阶段,形成“铁打的营盘”,职责清晰,提升整体效率[45][46][49] - **自研软件栈优势**:在英伟达Orin平台上,仅保留最底层的CUDA,其上工具链全部自研,为自研芯片的平滑对接和快速量产奠定了基础[54] 产品进展与战略选择 - **统一架构的长期主义**:在2022年同时推进国内和欧洲量产时,选择将高速与城区功能统一到一套架构下推倒重来,而非采用两套方案追求短期速度,虽初期进度慢但长期架构更干净[37][41] - **安全优先的产品策略**:优先推动端到端AEB功能上线,通过真实数据覆盖将场景响应率从不足10%提升至70%-80%,已验证事故损失下降25%,将社会价值置于即时用户体验之前[38][39][42] - **高算力平台的差异化**:高算力平台(如4颗Orin)提供安全冗余、承载新功能先行开发,再通过技术蒸馏迁移至低算力平台,用户体验基本无差异但功能上线有先后[43][44][48] - **开放集交互的规划**:计划在2024年底至2025年Q1推出Open-set(开放集指令交互),使用户能像与真人司机一样用自然语言随意下达指令,而非局限于有限指令集,这将是国内首个此类量产功能[16][17][20] 行业竞争与未来展望 - **对竞争态势的判断**:认为明年行业竞争将聚焦于基于世界模型的长时序能力建设,并明显向L3/L4级功能迈进[55] - **公司的核心优势**:扎实的数据与工程体系、经受三代平台考验的团队、以及在新架构上的先行布局,是应对未来竞争的基础[51][54][70] - **人才吸引的立足点**:为年轻技术人才提供世界模型这一AGI早期领域的探索机会、海量真实数据、成熟工程体系及产品快速落地的平台,是吸引顶尖人才的关键[69][70]