李飞飞长文火爆硅谷
投资界·2025-11-14 16:01

文章核心观点 - 空间智能是人工智能发展的下一个前沿领域,将推动大语言模型实现下一次质的飞跃 [4][6] - 构建具备空间智能的“世界模型”是解锁AI在创造力、机器人、科学、医疗和教育等领域潜力的关键技术路径 [8][16][18] - 世界模型需具备生成性、多模态和交互性三大核心能力,其技术挑战远超以往,但应用前景将深刻重塑人类与物理及虚拟世界的交互方式 [4][18][21] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,支撑着从日常动作到科学发现等一系列与物理世界互动的基础能力 [11][14] - 当前AI(如多模态大语言模型)的空间能力远未接近人类水平,在估计距离、方向、大小及预测物理规律等任务上存在根本性局限 [14][15] - 缺乏空间智能导致AI与物理现实脱节,无法安全驾驶汽车、引导家庭与医院中的机器人,或创造全新的沉浸式学习与娱乐体验 [16] 世界模型的核心能力与技术挑战 - 生成性:模型需能生成遵守物理定律、空间一致的虚拟世界,并保持世界状态的连贯性 [4][18][19] - 多模态:模型需能处理从图像、视频、深度图到文本指令、手势、动作等多种形式的输入 [4][19][20] - 交互性:模型需能根据输入的动作或目标,预测并输出世界的下一个状态 [4][20] - 技术挑战规模超越以往,需克服在通用训练任务函数、大规模多模态训练数据以及新型模型架构与表征学习等方面的巨大壁垒 [21][22][23] 世界模型的应用潜力 - 创造力:赋能电影人、游戏设计师、建筑师等创作者快速构建、迭代和探索三维世界,变革叙事与沉浸体验 [26][28][29] - 机器人:通过生成高质量仿真数据,扩展机器人学习,实现具备空间感知能力的人机协作伙伴及多样化的具身形态 [30][31][32] - 科学、医疗与教育:在科学研究中模拟实验、在医疗领域加速药物研发与辅助诊断、在教育领域实现沉浸式学习,增强人类专长与发现能力 [33][34][35] 行业发展趋势与公司进展 - World Labs公司成立于2024年初,致力于世界模型的基础性突破,其开发的Marble平台是全球首个可通过多模态输入生成一致性3D环境的世界模型 [8][23][26] - 行业共识认为,下一代世界模型将使机器在空间智能上达到新层次,开启AI理解与创造世界的时代,需要整个AI生态系统的集体努力 [24][26][27]