李飞飞万字长文爆了！定义AI下一个十年

文章核心观点 - 空间智能是人工智能发展的下一个前沿领域，其核心是构建能够理解、推理并与复杂物理和虚拟世界互动的“世界模型” [1][4][10] - 当前以大语言模型为代表的AI在抽象知识处理上表现出色，但在空间理解、物理推理和与真实世界互动方面存在根本性局限，空间智能旨在弥补这一差距 [10][21][24] - 实现空间智能需要构建具备生成性、多模态和互动性三大核心能力的“世界模型”，这是一项超越以往AI课题的宏大挑战，有望在创意产业、机器人技术和科学发现等领域带来革命性变革 [25][27][35][45] 空间智能的定义与重要性 - 空间智能是人类认知的基石，它使我们能够感知、理解物理空间，并在此基础上进行想象、推理、规划和行动，从日常活动到科学发现都依赖于此 [17][18][20] - 历史上的重大文明进步，如埃拉托色尼计算地球周长、哈格里夫斯发明珍妮纺纱机（生产效率提升八倍）、沃森和克里克发现DNA结构，都离不开空间智能的核心作用 [20] - 对于AI而言，空间智能代表了超越语言理解的前沿，是将想象、感知与行动融会贯通的能力，为机器真正提升人类生活开启了无限可能 [7][24] 当前AI在空间智能方面的局限 - 尽管多模态大语言模型引入了基本的空间意识，能分析图片、生成逼真图像和短视频，但AI的空间能力仍远未达到人类水平 [21] - 在最先进的模型上，执行估算距离、方向、尺寸或物体“心理旋转”等任务时，表现鲜有超过随机猜测，它们无法走出迷宫、识别捷径或预测基本物理现象 [22] - AI生成的视频通常在几秒钟后便会失去连贯性，这暴露了当前模型在表征和与物理世界互动方面存在根本性局限 [22][24] 构建空间智能的核心：世界模型及其三大能力 - 构建空间智能需要比大语言模型更宏大的构想，即“世界模型”，这是一种能理解、推理、生成并与语义、物理、几何和动态上复杂的世界进行互动的新型生成模型 [25] - 生成性：世界模型必须能生成无穷无尽、遵循语义指令，同时在几何、物理和动态层面保持一致的模拟世界，其对当前状态的理解必须与过去状态连贯相连 [27][29] - 多模态：世界模型应能处理多种形式的输入（如图像、视频、深度图、文本指令、手势或动作），并预测或生成尽可能完整的世界状态，实现与智能体和人类的多样化交流 [30][31][33] - 互动性：当给定动作或目标作为输入时，世界模型必须能输出与先前状态、物理定律及动态行为保持一致的下一个世界状态，未来甚至能基于新状态预测下一步动作 [34] 实现世界模型面临的技术挑战与研究方向 - 训练任务与数据：需要定义像LLM中“预测下一个token”一样简洁优雅的通用任务函数，并利用互联网规模的图像和视频数据，开发能从二维信号中提取深层空间信息的算法 [38][40] - 模型架构：需要推动当前MLLM和视频扩散范式之外的架构进步，例如采用具备三维或四维感知能力的token化、上下文和记忆方法，以解决简单空间任务困难的问题 [43] - 补充数据与传感器：高质量合成数据以及深度、触觉信息等额外模态对训练过程形成重要补充，但这有赖于更好的传感器系统和更强大的神经模拟方法 [41][42] 空间智能的应用前景与时间尺度 - 近期-创意工具：如World Labs的Marble项目，已将生成并维持一致三维环境的能力交到创作者手中，用于电影、游戏、建筑叙事和沉浸式体验设计 [5][45][56][58] - 中期-机器人技术：通过完善感知与行动之间的闭环，世界模型将规模化机器人学习，模拟无数状态与环境来训练机器人，使其成为人类的伴侣与协作者 [5][67][68][69] - 长期-科学、医疗与教育：具备空间智能的系统有望在药物发现（建模分子相互作用）、医疗诊断、沉浸式教育以及模拟科学实验（如气候科学、材料研究）等领域产生深远影响 [7][75][76] 行业生态与愿景 - 实现空间智能的愿景需要整个AI生态系统的集体努力，包括研究人员、创新者、企业家、公司及政策制定者的共同参与 [51][52] - 该技术的发展动机是增强人类能力，而非取代人类，旨在扩展人类的创造力、联系、效率，并充实生活，尊重人的能动性与尊严 [48][50][51] - 公司World Labs于2024年初创立，旨在应对构建世界模型这一未来十年的决定性挑战，其团队正致力于在相关技术领域取得根本性进展 [12][26][36]