第二代AI预训练范式：预测下个物理状态

文章核心观点 - 英伟达高级研究科学家Jim Fan提出，以预测下一个词为核心的第一代AI预训练范式（大语言模型）在应用于物理世界时存在局限，行业正转向以“世界建模”为核心的第二代预训练范式，其核心是预测下一个物理状态[1][2][4] - 第二代范式“世界建模”或“预测下一个物理状态”将视觉置于首位，旨在构建可学习的物理模拟器，其深远影响尚未被大众完全认知，预计2026年将成为“大世界模型”为机器人学及多模态AI奠定真实基础的元年[8] - 当前主流的视觉-语言-动作模型本质上是“语言优先”，视觉信息处于次要地位，其大部分参数用于知识而非物理理解，这种设计在解决物理世界问题时显得“头重脚轻”[9][10] - 从生物学和自然界的证据来看，视觉是连接物理世界的高带宽通道，高级物理智能可以独立于强大语言能力而存在，这支持了以视觉和物理建模为核心的发展路径[11][12] - 世界建模将带来新型的预训练（如融合3D运动、触觉感知）和新型的推理（在视觉空间进行“思维链”），并开启一系列全新的基础性问题探索，标志着AGI研究尚未收敛，正回归挑战第一性原理的时代[12][13] 对现有AI技术范式的批判 - 当前以大语言模型为代表的第一代AI范式基于“对下一词的预测”，在将其应用于物理世界时出现了明显的“水土不服”[4] - 视觉语言模型本质上是“语言优先”，视觉信息像“二等公民”，在物理规模上远逊于大语言模型[9] - 视觉-语言-动作模型是“LVA”结构，重要性排序为语言 > 视觉 > 动作，其设计擅长知识检索但在物理理解上“头重脚轻”[9][10] - VLM中的大部分参数分配给了知识（如识别品牌），而非物理理解（如预测液体泼洒的后果）[10] 第二代预训练范式：“世界建模” - 第二代范式被定义为“世界建模”或“预测下一个物理状态”，即在特定动作约束下预测下一个合理的物理世界状态[8] - 视频生成模型是其实例化体现，预测的“下一状态”是一系列RGB帧（通常为8-10秒，最长几分钟），“动作”是文本描述，训练涉及对数十亿小时视频像素的未来变化进行建模[8] - 世界模型是可学习的物理模拟器和渲染引擎，能捕捉“反事实”，即推理在不同动作下未来演化的差异[8] - 世界模型从根本上将视觉置于首位，这与当前“语言优先”的范式形成根本区别[8] 支持世界建模范式的论据 - 生物学上，视觉主导皮层计算，大脑皮层约三分之一部分专门处理视觉信息，而语言仅依赖相对紧凑区域，视觉是连接物理世界的高带宽通道[11] - 自然界存在证明，如类人猿语言能力微弱但物理技能远超最先进机器人，表明高级物理智能可独立于强大语言模型存在，它们拥有稳健的“如果…会怎样”物理世界心理图景[12] - YouTube全部存量和智能眼镜兴起，将捕捉到规模远超人类历史所有文本的原始物理世界视觉流，为世界模型提供数据基础[12] 对未来发展的预测与展望 - 预测2026年将成为“大世界模型”为机器人学以及更广泛的多模态AI奠定真实基础的元年[8] - 将见证新型预训练：下一个世界状态可能不限于RGB图像，3D空间运动、本体感觉和触觉感知才刚刚起步[12] - 将见证新型推理：发生在视觉空间而非语言空间的“思维链”，通过模拟几何形状和接触点解决物理难题，语言只是瓶颈和脚手架而非根基[12] - 将面临全新的基础性问题探索，如动作指令解码、训练目标优化、机器人数据需求等，行业可能正迈向机器人领域的“GPT-3时刻”[13] - 这标志着AGI研究尚未收敛，行业回到了“研究的时代”，正在挑战第一性原理[13]