李飞飞World Labs最新判断：AI写完代码，下一步是「写世界」？

文章核心观点 - AI在空间创作和现实世界任务中需要一种类似“代码”的通用接口，而3D作为一种结构化的表达方式，正扮演着这个角色，它能够被生成、检查、修改、版本管理，并接入模拟与机器人系统[2] - 将3D比作代码，神经图形学比作编程语言，模拟引擎比作芯片，共同构成一个支持可编程、数据驱动空间系统的新架构栈，以实现人、智能体与软件之间的可靠沟通与协作[9][11][13][23] 3D作为通用接口的类比与优势 - 3D与代码在作为接口上具有关键的结构相似性，都能将状态外化为其他系统可用的结构化构件，从而实现推理、表示和执行的分离[3][6] - 与让大语言模型直接“成为程序”或依赖黑盒系统相比，使用结构化的3D表示能提供可操作的结构，其输出可被检查、编辑、共享并集成到现有系统中[6][7] - 3D作为接口，对人而言自然且高效，因为人类的思维围绕持久物体构建，3D编辑一次即可自动传播到所有渲染帧，这与代码只需修改一次源代码而非重写每个输出的逻辑一致[19][20] 技术驱动与神经图形学的作用 - 为机器学习优化的现代GPU硬件，拥有庞大的内存，打破了传统3D引擎在内存和计算上的限制，使得NeRF和高斯泼溅等消耗大量资源的技术得以实现，支持生成和渲染世界级规模的表示[9][10] - 神经图形学在此架构栈中扮演着类似编程语言的角色，提供了一种表现力丰富的媒介，用于描述和生成空间结构[11] - 具体技术应用包括：Marble多模态世界模型可从多种输入创建持久、可导航的3D世界并导出为高斯泼溅、网格或视频；Chisel功能允许通过粗粒度3D布局控制生成细节；RTFM实验从简单输入生成复杂视觉效果；Spark则是集成WebGL的高性能高斯泼溅渲染器[25] 模拟引擎与系统架构的重要性 - 模拟引擎是运行“3D代码”的“芯片”，它解决状态管理、物理机制、碰撞检测等系统问题，使世界模型在时间维度上实现交互、持久性和动态变化[13][14] - 完全端到端的“像素化”方法将状态、动态和渲染纠缠在单一网络中，虽然方便，但会削弱物理一致性、可回放性和确定性的保证[14] - 更可行的方案是采用因式分解或混合运行时架构，让学习到的世界模型生成结构化3D表示，同时利用外部工具和引擎组件，在感知、生成组件与需要严格规则的组件之间保持区分[15][16] 3D作为人机与机机接口的价值 - 对于机器，3D是自然通用语，能使世界模型输出直接接入现有的模拟器、机器人软件栈、CAD等工具链，并促进机器间高效交流空间意图[17][18] - 结构化的3D输出使得空间意图（如目标区域、禁区标记）能够被清晰传达，这比共享隐向量或使用低效的语言格式更为可靠[18] - 3D表示的可导出能力至关重要，它将模型的“思想”外化为具体表示，使其成为可检查、验证、版本控制、测试和重用的构件，从而支持可组合的流水线[18]