蔚来任少卿：世界模型解决的是时空认知，VLA做不到。

智能驾驶技术路线分析 - 智能驾驶真正的上限在于世界模型，即以视频为核心，通过跨模态预测和重建学习时空物理规律，再叠加语言层进行交互和知识注入[2] - 世界模型解决时空认知问题，而语言模型解决概念认知问题，语言模型因低带宽和稀疏性无法有效建模真实四维时空[2] - 视觉语言模型本质是语言模型的模态扩展，根基仍在语言模型上，像是在原有体系上不断"加模态"[3] - 世界模型旨在建立高带宽认知系统，直接在视频端建立能力而非先转成语言，类似人类眼睛带来的高带宽视觉体验[3] - 自动驾驶终极目标是通过开放集智能引擎实现真正开放式交互，用户可随意表达指令而非局限于有限指令集[3] - 华为本质上也在做世界模型，蔚来去年七月份前已提出此概念，VLA/WA等名称差异关键看是否真正建立时空认知能力[5] 语言模型在智能驾驶中的价值 - 语言模型能内建物理规律如重力、惯性和速度变化，形成模型内部基础认知[6] - 语言模型具备时空操作能力，可理解和预测物体在三维空间加时间维度的运动如车辆绕行[6] - 语言模型吸收海量互联网案例数据，尤其有代表性复杂场景对自动驾驶训练非常有帮助[7] - 通过链式推理语言模型带来逻辑推理能力，弥补世界模型尚未建立的细粒度推理[7] - 自然语言接口使人机交互更直接，用户可像与司机沟通一样告诉车具体行驶指令[7] - 语言模型提供概念认知，世界模型提供时空认知，两者结合将最终走向通用人工智能[8] 自动驾驶行业现状与社区资源 - 自动驾驶领域高度内卷，前沿技术栈趋于收敛，量产方案趋同，行业面临破局需求[9] - 行业变革期真正留在行业内的需综合型人才，技术栈丰富，仅抱"捞一波"心态难以长久[9] - 自动驾驶之心知识星球已运营三年，集视频图文学习路线问答求职为一体，目前超过4000人[11] - 社区联合学术界工业界大佬，梳理近40+技术路线，涵盖VLA benchmark、综述和入门路线[12] - 社区提供全栈方向学习课程，适合0基础小白，涵盖感知融合、多传感器标定、SLAM等高精地图等[18] - 社区与多家自动驾驶公司建立内推机制，可第一时间将简历送至心仪公司[18] - 社区汇总国内外知名高校实验室和自动驾驶公司，供读研申博博后参考[37][39] - 社区针对热点领域如端到端自动驾驶、3DGS与NeRF、世界模型、VLM等做了详细技术梳理[47][49][52][54]