李飞飞终于把空间智能讲明白了:AI 的极限不是语言,世界远比文字更广阔!
AI科技大本营·2025-11-11 17:08

文章核心观点 - 当前人工智能的发展范式存在核心局限,过度依赖语言模型而缺乏对物理世界的理解,行业需要从“语言智能”向“空间智能”进行根本性的范式转换 [5][6][15] - 空间智能是人工智能的新疆界,其目标是构建能够理解、推理并与语义、几何、物理和动态上都极为复杂的真实或虚拟世界互动的“世界模型” [6][16][21] - 李飞飞及其创立的World Labs公司正致力于构建世界模型,其首个产品Marble已能通过多模态输入生成并维持一致的三维环境,为创意、机器人、科学发现等领域带来变革 [6][22][24][26] 空间智能的定义与重要性 - 空间智能是人类认知的脚手架,驱动着推理、规划以及与物理世界的互动,是想象力和创造力的基础 [10][12][13] - 当前最先进的多模态大语言模型在空间感知能力上存在根本性局限,其表现往往不比随机猜测好多少,无法有效估算距离、方向、尺寸或预测基本物理现象 [14][15] - 空间智能将连接想象、感知与行动,为机器在医疗健康、创意表达、科学发现和日常辅助等领域真正改善人类生活开辟可能 [15][24][29] 世界模型的技术框架与原则 - 构建具备空间智能的人工智能需要世界模型,其能力远非当今的大语言模型所能及,该领域尚处萌芽阶段,是未来十年最具决定性的挑战 [16][21] - 世界模型需具备三大基本能力:生成性(生成具有感知、几何和物理一致性的世界)、多模态(处理多种形式的输入)、交互性(能根据输入的动作输出下一个状态) [17][19][20] - 实现世界模型面临巨大技术障碍,包括需要定义通用的训练任务函数、利用互联网规模的图像视频数据作为训练材料、以及开发超越当前范式的新模型架构 [23] 空间智能的应用前景 - 在创造力领域,World Labs的Marble平台将为电影制作人、游戏设计师等提供前所未有的空间能力和编辑可控性,快速创建可完全探索的三维世界 [22][26][27] - 在机器人技术领域,世界模型将通过提供模拟数据和训练环境,规模化机器人学习,使其成为能在各种场景下协助人类的伙伴与协作者 [24][28][32] - 在更长远的未来,空间智能将深远影响科学、医疗和教育领域,例如加速药物发现、增强医学影像诊断、以及实现沉浸式学习等 [29][30]