文章核心观点 - AI预训练范式正在发生第二次重大转变,从“下一个词预测”转向“世界建模” [6] - “世界建模”被定义为在给定动作条件下,预测下一个合理的世界状态 [5][9] - 2026年将成为大世界模型为机器人及广义多模态AI奠定真实基础的关键一年 [3][8] - 当前世界模型的应用炒作集中在AI视频和游戏,但其根本价值在于服务物理AI和具身智能 [7][10] - 世界模型将催生以视觉为中心、而非语言为中心的新推理形式 [10][25] 世界模型的定义与范式转变 - “世界建模”是继“下一个词预测”之后的第二个预训练范式,可称为“下一个物理状态预测” [6] - 世界模型本质上是可学习的物理模拟器和渲染引擎,能捕捉反事实情景并进行推理 [13] - 视频生成模型是世界模型的一种实现形式,其“下一个状态”是一系列RGB帧(通常8–10秒,最长数分钟),“动作”是描述文本 [11] - 训练过程是对数十亿小时视频像素的未来变化进行建模 [12] 当前技术路线的局限与对比 - 当前主流的视觉语言模型路线本质是以语言为中心,视觉是“二等公民” [14] - 2025年物理AI领域以视觉语言动作模型为主,它更像是“语言 > 视觉 > 动作”的等级递减结构 [15][16] - VLA模型参数多用于知识而非物理理解,其设计在知识检索上强,但物理能力分配不足 [16][17] - VLA模型不会随着视觉语言模型的规模扩大而自然增强物理能力 [34] 以视觉为中心的必要性与生物启示 - 从生物学看,视觉皮层主导了人类大脑的计算,是连接大脑、运动系统和物理世界的最高带宽通道 [18] - 视觉闭合了“感知—运动回路”,这是机器人最需要解决的回路,且中间不需要语言 [18] - 猿类拥有高超的物理技能但语言能力有限,证明高灵巧物理智能几乎不依赖语言 [19][20][21] - 猿类拥有对“如果……会怎样”的稳健心理表征,即对物理世界运作的理解 [21] 世界模型带来的新变革与挑战 - 新的预训练目标:下一个世界状态不应只包含RGB,还必须覆盖3D运动、本体感觉与触觉 [10][24] - 新的推理形式:将出现“在视觉空间中的思维链”,通过模拟几何关系和接触解决物理问题,无需依赖语言 [10][25][43] - 面临的新挑战包括:动作如何解码、像素重建是否是最优目标、需要多少机器人数据、远程操作扩展是否可行等 [26][27] - 技术挑战具体包括:几何一致性、同一性保持、推理速度(降低实时循环延迟)、动作采样等 [44] 行业展望与商业动态 - 世界模型是一类全新的基础模型,是连接虚拟与物理领域的桥梁,其真正价值在于跨任务、跨领域的泛化能力 [37] - 世界模型作为基座模型,可以兼容视频生成与具身操控两种应用 [39] - 谷歌、英伟达等公司正在虚拟游戏、视频以及物理机器人领域同步布局世界模型技术 [40] - 商业层面快速推进:李飞飞创办的World Labs正以约50亿美元估值进行新一轮融资,规模最高可达5亿美元 [47] - LeCun创办的AMI Labs融资估值可能达到35亿美元 [47] - 2026年将是多模态、多轮交互代理之年,胜者必然更重视视觉模态 [45] - 2026年可能是机器人技术停止依赖语言模型,转而构建原生系统的一年 [46]
英伟达Jim Fan:「世界建模」是新一代预训练范式