当前AI大模型的局限性 - 当前大语言模型的核心能力是基于统计规律“预测下一个词”,而非真正理解世界[6] - 模型在处理简单物理世界问题时会出现错误,例如无法准确判断车辆与树木的距离,或出现“杯子松手后飞上天”等违背常识的情况[7] - 这种局限被比喻为“黑暗中的秀才”:虽然通过阅读万卷书掌握了丰富的语言统计规律,但从未行万里路,缺乏对现实世界的直接感知和互动[7] 空间智能的定义与重要性 - 空间智能被定义为“不通过语言,理解物理世界,和物理世界互动的能力”,其核心是感知、想象和行动[8] - 智能的本质是能在不确定的世界中持续预测、行动并达成目标,这不能仅靠大脑凭空产生,而需扎根于物理现实[8] - 大自然花费了5亿年进化视觉系统,而语言仅进化了几万年,表明感知世界远比描述世界更为基础和重要[13] 世界模型:AI的未来发展方向 - 未来AI的发展方向可能从“预测下一个词”转向“预测下一帧世界”,即遵循物理逻辑而非语法逻辑[14][15] - 世界模型能生成具有真实物理规律(如重力、光影、遮挡关系)的可探索空间,与当前仅生成像素序列的AI视频有本质区别[15] - 实现世界模型需解决的核心挑战包括寻找类似“预测下一个词”的优雅任务函数,以及从互联网二维视频中提取海量空间数据[17] 空间智能的应用前景与商业机会 - 空间智能的成熟将推动机器人真正进入家庭,使其能够理解“花瓶易碎需绕行”等物理常识,执行叠衣服、整理房间乃至照顾老人等复杂任务[20] - 在内容创作领域,具备空间智能的AI可实现真正“可控”的视频生成,满足商业广告、电影制作中对角色走位、光影角度等的精确控制需求[20] - 李飞飞团队与索尼虚拟制作公司的合作案例显示,使用Marble技术搭建场景可使生产效率提升40倍[21] - 面向消费者的“想象成真”应用前景广阔,例如通过上传毛坯房照片和风格描述,几秒内生成可自由探索和修改的虚拟样板间[21] - 空间智能技术还可用于心理治疗(如恐高症暴露疗法)以及为机器人公司提供特定领域的合成数据“教材”[22]
李飞飞最新长文:AI很火,但方向可能偏了
创业邦·2025-11-23 19:15