李飞飞一年前究竟说了啥?怎么又火了
量子位·2025-09-11 09:58
大语言模型的局限性 - 语言信号基于人类输入生成,无法独立于人类存在 [2][4] - 语言模型底层表示为一维离散token序列,与三维物理世界存在本质差异 [12][14] - 物理世界具有客观存在的三维结构和物理定律,需要不同的信息处理方式 [5][19] 空间智能与语言模型的差异 - 三维世界信息提取需匹配任务类型,直接处理3D数据可改善表示效果 [15] - 空间智能需从真实世界提取、表示和生成信息,涉及物理约束和材料特性 [17][19] - 多模态模型将其他模态强行嵌入一维序列导致物理信息损失 [14] 模型在物理任务中的表现缺陷 - 多模态大模型在Animal-AI测试中仅能完成最简单任务,复杂任务失败率极高 [24][26] - 增加教学案例后模型表现仍无显著提升 [27] - 模型表现远逊于人类儿童及专用测试机器人 [28] 物理推理能力测试结果 - ABench-Physics测试中最佳模型Phy A正确率仅43% [32][34] - 修改题目数值后(Phy B)模型准确率下降22.5% [33][34] - 视觉感知任务中模型最高正确率51%,远低于人类95.7%的水平 [37][38] 行业技术发展方向 - 模型开发正向物理基础与多模态理解扩展 [44] - 人工智能可能创造独立于人类语言的新表征体系 [47] - 需探究语言训练取得成就的核心因素以突破现有局限 [48]