李飞飞World Labs最新判断:AI写完代码,下一步是「写世界」?
机器之心·2026-03-04 17:15

文章核心观点 - AI在空间创作和现实世界任务中需要一种类似“代码”的通用接口,而3D作为一种结构化的表达方式,正扮演着这个角色,它能够被生成、检查、修改、版本管理,并接入模拟与机器人系统[2] - 将3D比作代码,神经图形学比作编程语言,模拟引擎比作芯片,共同构成一个支持可编程、数据驱动空间系统的新架构栈,以实现人、智能体与软件之间的可靠沟通与协作[9][11][13][23] 3D作为通用接口的类比与优势 - 3D与代码在作为接口上具有关键的结构相似性,都能将状态外化为其他系统可用的结构化构件,从而实现推理、表示和执行的分离[3][6] - 与让大语言模型直接“成为程序”或依赖黑盒系统相比,使用结构化的3D表示能提供可操作的结构,其输出可被检查、编辑、共享并集成到现有系统中[6][7] - 3D作为接口,对人而言自然且高效,因为人类的思维围绕持久物体构建,3D编辑一次即可自动传播到所有渲染帧,这与代码只需修改一次源代码而非重写每个输出的逻辑一致[19][20] 技术驱动与神经图形学的作用 - 为机器学习优化的现代GPU硬件,拥有庞大的内存,打破了传统3D引擎在内存和计算上的限制,使得NeRF和高斯泼溅等消耗大量资源的技术得以实现,支持生成和渲染世界级规模的表示[9][10] - 神经图形学在此架构栈中扮演着类似编程语言的角色,提供了一种表现力丰富的媒介,用于描述和生成空间结构[11] - 具体技术应用包括:Marble多模态世界模型可从多种输入创建持久、可导航的3D世界并导出为高斯泼溅、网格或视频;Chisel功能允许通过粗粒度3D布局控制生成细节;RTFM实验从简单输入生成复杂视觉效果;Spark则是集成WebGL的高性能高斯泼溅渲染器[25] 模拟引擎与系统架构的重要性 - 模拟引擎是运行“3D代码”的“芯片”,它解决状态管理、物理机制、碰撞检测等系统问题,使世界模型在时间维度上实现交互、持久性和动态变化[13][14] - 完全端到端的“像素化”方法将状态、动态和渲染纠缠在单一网络中,虽然方便,但会削弱物理一致性、可回放性和确定性的保证[14] - 更可行的方案是采用因式分解或混合运行时架构,让学习到的世界模型生成结构化3D表示,同时利用外部工具和引擎组件,在感知、生成组件与需要严格规则的组件之间保持区分[15][16] 3D作为人机与机机接口的价值 - 对于机器,3D是自然通用语,能使世界模型输出直接接入现有的模拟器、机器人软件栈、CAD等工具链,并促进机器间高效交流空间意图[17][18] - 结构化的3D输出使得空间意图(如目标区域、禁区标记)能够被清晰传达,这比共享隐向量或使用低效的语言格式更为可靠[18] - 3D表示的可导出能力至关重要,它将模型的“思想”外化为具体表示,使其成为可检查、验证、版本控制、测试和重用的构件,从而支持可组合的流水线[18]

李飞飞World Labs最新判断:AI写完代码,下一步是「写世界」? - Reportify