Workflow
李飞飞最新长文:AI的下一个十年——构建真正具备空间智能的机器
机器之心·2025-11-11 07:47

文章核心观点 - 空间智能是人工智能的下一个前沿,它将彻底改变人类创造和交互现实与虚拟世界的方式,重塑叙事、创意、机器人学、科学发现等领域 [5][17] - 当前以大语言模型为代表的AI在空间智能方面与人类存在巨大差距,缺乏对物理世界的整体性理解和交互能力 [14][15] - 实现空间智能需要构建全新的“世界模型”,该模型需具备生成性、多模态性和交互性三大核心能力 [17][18][19][20] - 空间智能的应用潜力巨大,将赋能创造力、机器人技术、科学、医疗和教育等多个领域,其目标是增强而非取代人类能力 [30][38][40] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,定义了人类如何与物理世界互动,是想象力与创造力的基础 [10][13] - 人类依赖空间智能完成日常行为,如停车、接钥匙、在人群中穿行等,这种流畅性是机器尚未具备的 [10] - 在人类文明发展的关键时刻,空间智能屡次扮演核心角色,例如埃拉托色尼计算地球周长、发明珍妮纺纱机、发现DNA双螺旋结构等 [11][12] - 当前最先进的多模态AI模型在估算距离、方向、大小等任务上表现仅略高于随机水平,无法预测基本物理规律,生成的视频缺乏连贯性 [14] 构建空间智能世界模型的框架 - 世界模型是一种新型生成式模型,需在语义、物理、几何与动态等多重复杂世界中进行理解、推理、生成与交互 [17] - 核心能力一:生成性——能生成在感知、几何与物理层面保持一致的世界,对世界的理解必须与过去状态保持连贯 [18] - 核心能力二:多模态性——能处理多种形式的输入(如图像、视频、文本指令、手势等),并预测或生成完整的世界状态 [19] - 核心能力三:交互性——能根据输入的动作生成下一个世界状态,输出需与物理规律及动态行为相一致 [20] - 构建世界模型面临三大挑战:定义通用训练任务函数、获取和处理大规模多模态训练数据、开发新型模型架构与表征学习算法 [23][24][25] 空间智能的应用前景 - 在创造力领域,空间智能将改变故事创造与体验方式,例如World Labs的Marble平台使创作者能快速创建并迭代可自由探索的三维世界 [32][33] - 在机器人领域,世界模型将扩展机器人的学习能力,通过仿真训练帮助机器人理解、导航并与物理世界互动,成为人类的伙伴与协作者 [34][35][36] - 在科学、医疗与教育等长远领域,空间智能能模拟实验、加速药物发现、实现沉浸式学习,从而增强人类的专业能力与加速发现 [38][39][40] - 空间智能的应用涵盖不同时间维度,从面向创作者的工具到中期的机器人学雄心,再到长期的变革性科学应用 [30]