时空认知

搜索文档
蔚来任少卿:世界模型解决的是时空认知,VLA做不到。
自动驾驶之心· 2025-10-10 07:32
晚上的时候看到了晚点团队采访蔚来任少卿的文章,把里面关于VLA和WA的观点提炼出来分享给大 家。 晚点团队原文链接: 任少卿的智驾非共识:世界模型、长时序智能体与 "变态" 工程主义 任少卿认为智能驾驶真正的上限在世界模型,即以视频为核心,通过跨模态的互相预测和重建,让 系统学习时空和物理规律,再叠加语言层去交互与注入知识,让机器能像人一样理解环境。 世界模型解决的是 时空认知 ,语言模型解决的是 概念认知 。语言模型低带宽和稀疏性 无法真正有 效的建模真实世界的四维时空(时间+空间)。 世界模型的认知包含两个层面: 但VLA本质还是语言模型的模态扩展。 这些扩展虽然加入了新模态,但 "根" 依然在语言模型上。它 像是在原有的语言体系上不断 "加模态"。 但世界模型不是 "语言加法",而是要建立一套高带宽的认知系统。因为语言通道的带宽太低了。人 类如果没有眼睛,只靠嘴和耳朵交流,效率会有多低?眼睛带来的视觉带宽就大得多。世界模型要 直接在视频端建立能力,而不是先转成语言。 现在的智驾系统,你和它的交互都还是闭集的。而自动驾驶的终极目标是通过 Open-set(开放集指 令交互) 智能引擎实现真正的开放式交互。 ...
任少卿的智驾非共识:世界模型、长时序智能体与 “变态” 工程主义
晚点LatePost· 2025-10-09 18:14
留在智能驾驶,不是因为容易,而是因为更难。 文 丨 魏冰 宋玮 编辑 丨 宋玮 任少卿的头发很有辨识度,浓密、微卷,刘海盖住额头。走进会议室,第一次见他的人把他当成了实习生,知道身 份后调侃说,只有在 AI 创业公司才能看到这么年轻的技术 leader。 "我们就是 AI 公司"——任少卿一本正经的回答。 但他身处的是蔚来,一家还在血海中搏杀的汽车制造商,而他的战场,是智能驾驶。这个反常回答,和他的人生轨 迹相似:总在别人以为答案已定的时候,他偏要走向另一个方向。 2007 年他考入中科大,2016 年博士毕业。期间他提出了 Faster R-CNN(一种基于深度学习的目标检测框架),又 和当时微软亚研院视觉计算组的孙剑、何恺明,博士生张祥雨一起研究 ResNet(残差网络)。后者解决了神经网络 越深越 "失忆" 的难题,让模型可以无限叠加层数,被视为深度学习史上的里程碑。当时任少卿 27 岁。 2016 年,他与曹旭东共同创立自动驾驶公司 Momenta,亲历了自动驾驶最热的创业年代。4 年后,他离开一手创立 的公司,转身去了还在低谷挣扎的蔚来。 原因很简单,当年 AI 发展撞上瓶颈,他认为下一次突破只能靠 ...