李飞飞揭大模型“死穴”：不会空间智能，再能聊也是纸上谈兵

当前AI的局限与空间智能的定义 - 当前人工智能被困在由文本和二维图像构成的“扁平世界”里，与立体的、受物理规律支配的现实世界严重脱节[1] - 空间智能被视为打破认知隔膜的关键，是AI从“对话工具”蜕变为“行动伙伴”的转折点，代表了人工智能演进的下一个前沿[1] - 当前AI在自主机器人发展、科学研究效率革命以及创意赋能方面缺乏深度理解，其根本原因在于缺乏人类与生俱来的空间智能[2] - 空间智能是人类通过“感知-行动”循环与物理世界互动的根本能力，驱动日常行为、非语言沟通、想象力与创造力，是文明重大突破的基石[4] 当前AI空间能力的不足 - 尽管多模态大型语言模型具备基础空间感知能力，最先进机器人能在受限环境中操控物体，但AI的空间能力仍远未达到人类水平[5] - 最先进的多模态大型语言模型在估算距离、方位、尺寸及“心理旋转”等任务上表现几乎与随机猜测无异，无法走出迷宫、识别捷径或预测基本物理规律[5] - AI生成的视频往往在几秒后失去连贯性，模型对世界的理解是表面与割裂的，缺乏人类整体性、关联性和基于直觉的认知[5] - 缺乏空间智能导致AI无法有效驾驶汽车、操控机器人、提供沉浸式互动体验，也无法加速材料科学与医学领域的探索进程[5] 下一代AI与世界模型的技术路径 - 构建具有空间智能的人工智能需要转向发展“世界模型”，其核心是能理解、推理并生成在语义、几何、物理和动态规则上都保持一致的复杂世界[8] - 世界模型需具备三种基本能力：生成式能力以创造感知、几何和物理动态一致的模拟世界；多模态能力以处理图像、视频、文本、动作；交互式能力以根据动作预测世界下一个状态[10] - 构建世界模型面临远超语言模型的挑战，因为“世界”遵循的规则更复杂，其表征的维度与复杂性远非一维序列信号可比[10] - World Labs致力于取得根本性进展，包括定义新的通用训练目标函数、破解大规模训练数据难题以及开发新的模型与表征架构[12] 空间智能的应用前景与产业影响 - 空间智能的应用将分阶段深化：短期赋能创意工具如World Labs的Marble平台，变革电影、游戏、建筑及工业设计等领域的故事讲述与空间叙事方式[15] - 中期而言，机器人技术是空间智能具身化的核心实践，世界模型通过生成高保真度模拟数据能极大扩展机器人学习的边界，实现可泛化的理解、推理与交互能力[15] - 长期看，空间智能将辐射至科学、医疗保健与教育等领域，模拟实验、辅助诊断、创造沉浸式学习体验，加速人类发现[18] - 空间智能将重构人机关系，使AI从依赖屏幕与文本的“工具”转变为能感知上下文、理解意图并主动协作的“场景伙伴”[20] 产业生态的演进与投资视角 - 高德地图董事长刘振飞指出，空间智能将如云计算一样，成为360行与物理世界交互的标配基础设施，推动AI从对话工具蜕变为行动伙伴[20] - 群核科技联合创始人黄晓煌将空间智能视为继大语言模型之后至关重要的新领域，是机器从自动化迈向“具身智能”的必经之路，并预言未来机器人数量可能达到700亿台[21] - 英诺创新空间创始合伙人邓永强提出“AI新大陆”概念，将空间智能提升至文明演进高度，预判2025年将成为相关技术规模化落地的关键元年[22] - 空间智能是涵盖三维环境感知与重建、定位与姿态估计、空间关系理解等复杂技术体系，其发展需要技术、伦理与商业的协同进化[24][25]