第二代AI预训练范式:预测下个物理状态
机器之心·2026-02-04 19:20

文章核心观点 - 英伟达高级研究科学家Jim Fan提出,以预测下一个词为核心的第一代AI预训练范式(大语言模型)在应用于物理世界时存在局限,行业正转向以“世界建模”为核心的第二代预训练范式,其核心是预测下一个物理状态[1][2][4] - 第二代范式“世界建模”或“预测下一个物理状态”将视觉置于首位,旨在构建可学习的物理模拟器,其深远影响尚未被大众完全认知,预计2026年将成为“大世界模型”为机器人学及多模态AI奠定真实基础的元年[8] - 当前主流的视觉-语言-动作模型本质上是“语言优先”,视觉信息处于次要地位,其大部分参数用于知识而非物理理解,这种设计在解决物理世界问题时显得“头重脚轻”[9][10] - 从生物学和自然界的证据来看,视觉是连接物理世界的高带宽通道,高级物理智能可以独立于强大语言能力而存在,这支持了以视觉和物理建模为核心的发展路径[11][12] - 世界建模将带来新型的预训练(如融合3D运动、触觉感知)和新型的推理(在视觉空间进行“思维链”),并开启一系列全新的基础性问题探索,标志着AGI研究尚未收敛,正回归挑战第一性原理的时代[12][13] 对现有AI技术范式的批判 - 当前以大语言模型为代表的第一代AI范式基于“对下一词的预测”,在将其应用于物理世界时出现了明显的“水土不服”[4] - 视觉语言模型本质上是“语言优先”,视觉信息像“二等公民”,在物理规模上远逊于大语言模型[9] - 视觉-语言-动作模型是“LVA”结构,重要性排序为语言 > 视觉 > 动作,其设计擅长知识检索但在物理理解上“头重脚轻”[9][10] - VLM中的大部分参数分配给了知识(如识别品牌),而非物理理解(如预测液体泼洒的后果)[10] 第二代预训练范式:“世界建模” - 第二代范式被定义为“世界建模”或“预测下一个物理状态”,即在特定动作约束下预测下一个合理的物理世界状态[8] - 视频生成模型是其实例化体现,预测的“下一状态”是一系列RGB帧(通常为8-10秒,最长几分钟),“动作”是文本描述,训练涉及对数十亿小时视频像素的未来变化进行建模[8] - 世界模型是可学习的物理模拟器和渲染引擎,能捕捉“反事实”,即推理在不同动作下未来演化的差异[8] - 世界模型从根本上将视觉置于首位,这与当前“语言优先”的范式形成根本区别[8] 支持世界建模范式的论据 - 生物学上,视觉主导皮层计算,大脑皮层约三分之一部分专门处理视觉信息,而语言仅依赖相对紧凑区域,视觉是连接物理世界的高带宽通道[11] - 自然界存在证明,如类人猿语言能力微弱但物理技能远超最先进机器人,表明高级物理智能可独立于强大语言模型存在,它们拥有稳健的“如果…会怎样”物理世界心理图景[12] - YouTube全部存量和智能眼镜兴起,将捕捉到规模远超人类历史所有文本的原始物理世界视觉流,为世界模型提供数据基础[12] 对未来发展的预测与展望 - 预测2026年将成为“大世界模型”为机器人学以及更广泛的多模态AI奠定真实基础的元年[8] - 将见证新型预训练:下一个世界状态可能不限于RGB图像,3D空间运动、本体感觉和触觉感知才刚刚起步[12] - 将见证新型推理:发生在视觉空间而非语言空间的“思维链”,通过模拟几何形状和接触点解决物理难题,语言只是瓶颈和脚手架而非根基[12] - 将面临全新的基础性问题探索,如动作指令解码、训练目标优化、机器人数据需求等,行业可能正迈向机器人领域的“GPT-3时刻”[13] - 这标志着AGI研究尚未收敛,行业回到了“研究的时代”,正在挑战第一性原理[13]