Workflow
蔚来任少卿:世界模型解决的是时空认知,VLA做不到。
自动驾驶之心·2025-10-10 07:32

晚上的时候看到了晚点团队采访蔚来任少卿的文章,把里面关于VLA和WA的观点提炼出来分享给大 家。 晚点团队原文链接: 任少卿的智驾非共识:世界模型、长时序智能体与 "变态" 工程主义 任少卿认为智能驾驶真正的上限在世界模型,即以视频为核心,通过跨模态的互相预测和重建,让 系统学习时空和物理规律,再叠加语言层去交互与注入知识,让机器能像人一样理解环境。 世界模型解决的是 时空认知 ,语言模型解决的是 概念认知 。语言模型低带宽和稀疏性 无法真正有 效的建模真实世界的四维时空(时间+空间)。 世界模型的认知包含两个层面: 但VLA本质还是语言模型的模态扩展。 这些扩展虽然加入了新模态,但 "根" 依然在语言模型上。它 像是在原有的语言体系上不断 "加模态"。 但世界模型不是 "语言加法",而是要建立一套高带宽的认知系统。因为语言通道的带宽太低了。人 类如果没有眼睛,只靠嘴和耳朵交流,效率会有多低?眼睛带来的视觉带宽就大得多。世界模型要 直接在视频端建立能力,而不是先转成语言。 现在的智驾系统,你和它的交互都还是闭集的。而自动驾驶的终极目标是通过 Open-set(开放集指 令交互) 智能引擎实现真正的开放式交互。 ...