Workflow
3D通才模型
icon
搜索文档
老黄万亿美元梦成真,英伟达版“世界模型”震撼问世
36氪· 2026-01-23 20:01
核心观点 - 英伟达联合斯坦福大学发布名为“3D通才”的视觉-语言-动作模型,标志着AI从生成视听内容升级为能理解并构建物理规则3D世界的技术突破,这被视为“物理AI的ChatGPT时刻” [1][10][11] - 该技术旨在解决此前AI生成内容缺乏物理真实性的问题,通过生成包含完整物理属性的3D环境,为机器人等具身智能在虚拟世界中进行大规模、低成本训练铺平道路,是英伟达实现“从模拟到现实”战略的关键拼图 [7][30][37] 技术突破与模型细节 - 模型名称为“3D Generalist: Vision-Language-Action Models for Crafting 3D Worlds”,由英伟达与斯坦福大学合作完成,并在第十三届国际三维视觉会议上发表 [12][13] - 模型核心是“Action”,它颠覆了AI仅作为“观察者”的角色,使其成为能根据文本描述输出包含完整3D布局、材料、固定装置及照明配置的“全能手” [13][14] - 技术流程包括:利用全景扩散模型生成360°引导图像,通过房间布局估算、固定装置分割、视觉-语言模型注释等步骤,最终程序化构建3D房间 [17][23] - 模型采用视觉-语言-动作模型生成代码来构建与修改3D环境,并通过自我改进训练循环进行微调,涌现出自我纠错行为 [23][24] - 研究团队使用该模型生成的合成数据训练视觉基础模型,在仅使用861,080个标签时,其ImageNet-1K Top 1准确率达到0.731,接近使用50亿真实数据训练的模型效果(0.786) [25][28][29] 战略意义与行业应用 - 该技术的战略意图服务于英伟达宏大的“具身智能”版图,旨在解决在真实世界中训练机器人成本高、速度慢、风险大的难题 [30][32] - 通过该模型可瞬间生成数百万个包含不同物理变量的“虚拟平行宇宙”,让机器人在高度逼真的虚拟环境中进行高强度训练,实现“Sim-to-Real” [34][36] - 该技术深度集成于英伟达Omniverse生态,利用Omniverse Replicator进行大规模合成数据生成,并配合Isaac Lab进行机器人仿真,构建了完整的训练闭环 [36] - 此举将推动所有移动物体走向自主化,模糊虚拟与现实的界限,为机器人、自动驾驶等多个行业带来变革 [40][42] 背景与人物 - 研究由英伟达与斯坦福大学合作,主要作者包括斯坦福大学AI实验室的博士生Fan-Yun Sun、Shengguang Wu,助理教授Jiajun Wu,以及英伟达的高级系统软件工程师Shangru Li等 [43][45][47][49][51] - 黄仁勋自2024年起便多次强调“Physical AI”的重要性,认为下一波AI浪潮必须是懂物理的AI,此次发布验证了他的预言 [4][8] - 此次技术突破被视为对2024年OpenAI发布的Sora视频生成模型在物理真实性不足方面的回应与超越 [2][7]