英伟达Jim Fan:“世界建模”是新一代预训练范式
英伟达英伟达(US:NVDA) 36氪·2026-02-05 15:34

核心观点 - 英伟达机器人主管Jim Fan提出,继“下一个词预测”之后,“世界建模”将成为新的预训练范式,并预测2026年将成为大世界模型为机器人及多模态AI奠定基础的第一年 [1][2][5] 技术范式转变 - 预训练范式正从“下一个词预测”转向“世界建模”,即“下一个物理状态预测” [5] - 世界建模的定义是在给定一个动作的条件下,预测下一个合理的世界状态(或一段更长时间范围内的状态) [5] - 视频生成模型是世界模型的一种实现形式,其“下一个状态”是一系列RGB帧(通常为8–10秒,最长可达数分钟),“动作”是一段文本描述 [5] - 训练过程是对数十亿小时视频像素的未来变化进行建模,视频世界模型本质上是可学习的物理模拟器和渲染引擎 [6] 当前技术路线与局限 - 2025年物理AI领域以视觉语言动作模型为主,即在预训练视觉语言模型上接入机器人动作解码器 [8] - 视觉语言动作模型更像是“语言 > 视觉 > 动作”的等级递减结构,其中大多数参数用于知识而非物理能力 [9] - 视觉语言动作模型的设计在知识检索上很强,但物理能力分配不足,且多阶段嫁接的设计不够简洁优雅 [9] - 视觉语言模型中,视觉编码器在训练中会主动丢弃细节,而机器人操作恰恰依赖这些细节 [24] 世界模型的优势与愿景 - 世界模型能够捕捉反事实情景,即预测如果采取不同动作未来可能会如何不同,这本身就是一种推理 [6] - 世界模型从根本上以视觉为中心,而视觉语言模型本质上是以语言为中心的 [6] - 从生物学角度看,视觉主导了人类皮层计算,约三分之一的大脑皮层用于处理像素,视觉是连接大脑、运动系统和物理世界的最高带宽通道 [10] - 自然界例证表明,高灵巧物理智能(如猿类)几乎不依赖语言,它们拥有对物理世界如何运作的稳健心理表征,其物理技能远超当前最先进的机器人 [10][12][13] - 世界模型是连接虚拟与物理两个领域的桥梁,其真正价值在于跨任务、跨领域的泛化能力,就像大语言模型作为基座模型能兼容多种任务一样 [26] 未来发展方向 - 2026年将迎来物理AI的爆发,大世界模型将首次为机器人领域以及更广义的多模态AI奠定真实基础 [2][5] - 新的预训练形式将出现:下一个世界状态不应只包含RGB,还必须覆盖3D运动、本体感觉与触觉 [5][16] - 新的推理形式将出现:在视觉空间中的思维链,而非语言空间中的思维链,可以通过模拟几何关系和接触来解决物理谜题 [5][17][18] - YouTube的海量视频和智能眼镜的兴起,将以远超文本训练规模的原始视觉流捕捉世界 [15] - 2026年将是多模态、多轮交互代理(机器人/具身通用智能体)之年,比赛的胜者必然会更重视视觉模态 [29] - 2026年或许是机器人技术最终停止依赖语言模型,转而构建原生系统的一年 [30] 面临的挑战 - 从像素到物理的跃迁仍然很陡峭,要让世界模型成为可靠的动作生成骨干,必须解决几何一致性、同一性保持、推理速度和动作采样等问题 [28] - 在数据量和计算需求上,这一目标将使当前的动作策略扩展显得相对温和 [28] - 即便未来模拟完美,仍需解决动作该如何解码、像素重建是否是最优目标、需要多少机器人数据、远程操作的扩展是否仍然可行等问题 [19] 行业动态与商业布局 - 谷歌、英伟达等公司都在虚拟游戏、视频以及物理机器人领域同步布局世界模型 [26] - 李飞飞创办的World Labs正以约50亿美元估值进行新一轮融资,规模最高可达5亿美元 [31] - Yann LeCun创办的AMI Labs也吸引了包括Cathay Innovation在内的潜在投资者,传闻其融资估值可能达到35亿美元 [31]

Nvidia-英伟达Jim Fan:“世界建模”是新一代预训练范式 - Reportify