李飞飞最新发文：下一个十年，空间智能将成为人类认知的“脚手架”

文章核心观点 - 空间智能是人工智能尚未攻克的下一个前沿，其本质是构建对物理世界的整体认知，超越当前AI仅擅长处理文本和二维图像的局限 [3][7][19] - 世界模型是解锁空间智能的关键技术路径，这是一种新型生成模型，旨在理解、推理、生成并与复杂世界互动，其能力远超现有大型语言模型 [8][27][30] - 空间智能的应用将重塑多个行业，包括创意领域、机器人技术、科学发现、医疗健康和教育，其核心价值在于增强人类能力而非取代人类 [12][34][40] 空间智能的定义与核心价值 - 空间智能是人类认知的“脚手架”，支撑着与物理世界的日常互动，是想象力、创造力与文明进步的底层动力 [3][5][23] - 空间智能的本质是“整体化的世界观”，涵盖万物在空间中的关联、意义与价值，使人类既能被动观察世界，也能主动创造世界 [5][24][25] - 历史上诸多文明突破以空间智能为核心驱动力，例如埃拉托斯特尼计算地球周长、珍妮纺纱机提升生产力八倍、沃森与克里克发现DNA结构 [4][24] 当前AI在空间智能领域的局限 - 尽管生成式AI已能生成连贯文本和照片级图像，但当前AI的空间能力仍“远不及人类”，在估计距离、方向、物体大小或进行“心理旋转”时表现不佳 [6][25] - 现有AI系统本质上是“黑暗中的文字匠”，擅长处理文本序列与二维图像，却无法构建对物理世界的整体认知，缺乏想象、推理、创造与互动能力 [7][19][25] - AI生成的短视频常在几秒后失去时空连贯性，最先进的机器人也仅能在高度受限的环境中完成简单操作 [6][25] 世界模型的技术路径与核心能力 - 世界模型具备三大核心能力：生成能力（生成感知、几何和物理一致的模拟世界）、多模态能力（处理图像、视频、文本、手势等输入）、交互能力（根据动作预测新世界状态） [9][10][28] - 交互能力的本质是“理解因果关系”，模型需从海量数据中学习动作与结果的关联，掌握世界运行的底层逻辑，实现“动作-状态-动作”的闭环响应 [10][11][30] - 世界实验室已展示首个成果“Marble”，这是首个可通过多模态输入提示生成并维持一致3D环境的世界模型，计划尽快向公众开放 [11][33][34] 空间智能的应用前景 - 在创意领域，空间智能将重构叙事与设计的创作范式，实现“所想即所得”，大幅降低创意落地的时间与成本门槛，例如帮助建筑师快速可视化未建成结构 [13][35][36] - 在机器人领域，世界模型能通过模拟生成海量训练数据，加速机器人学习过程，使其从简单工具转型为人类的智能伙伴与合作者，例如协助科学家处理实验仪器或帮助老年人完成家务 [14][37][38] - 在科学、医疗与教育领域，空间智能将模拟复杂实验场景、加速药物研发、实现沉浸式学习，例如让学生“身临其境”探索细胞机制或历史事件 [15][16][39][40] 发展愿景与行业影响 - AI发展的驱动力是增强人类能力，空间智能正是这一愿景的体现，旨在赋能人类创作者、护理者、科学家与梦想家 [34][40][42] - 实现空间智能需要整个AI生态系统的集体努力，包括研究者、创新者、企业与政策制定者的协作 [34][41] - 空间智能将成为AI下一个十年的核心赛道，世界模型有望引领人类进入“智能普惠”的新纪元 [18][34][42]