世界模型怎么才算“能用”？李飞飞把它做成了 API

核心观点 - World Labs推出的World API标志着人工智能从生成视频内容向构建可交互三维空间的重大跨越，其核心是生成具备物理规则与几何结构的数字世界，旨在赋予机器空间智能[1] - 该产品定位为下一代空间智能的底层平台和可编程空间的基础设施，而非简单的生成式AI应用，公司正洽谈新一轮融资，目标估值达50亿美元，是此前10亿美元估值的五倍[8][11] 产品定位与技术差异 - World API生成的是完整的空间结构和几何模型，具备物理关系和可交互性，与Sora等生成固定角度连续视频流的工具有本质区别，后者是给人看的内容，而前者是给机器用的环境[1][2] - 其输出正从内容变成环境，解决的是“能做什么”的问题，为游戏、机器人训练、VR/AR等需要可探索、可训练、可沉浸空间的场景提供基础[3][5] 核心技术能力 - 采用多模态输入技术，支持文本、图片、视频、全景图，通过融合语言、语义、几何和物理信息来还原完整的3D空间[7] - 具备语义理解与编辑能力，能理解“沉重”、“中央”等自然语言中蕴含的物理和空间信息，无需创作者转换为精确数值或学习专业软件[8] - 提供可视化工具Chisel（凿子），允许用户通过放置几何约束来辅助AI生成完整场景，降低了3D内容创作门槛[8] 目标市场与应用场景 - 主要面向三类核心应用场景：游戏开发（可快速生成可用关卡）、机器人训练（可从视频生成可训练的3D仿真环境）、VR/AR（降低3D内容制作门槛）[9] - 技术下一步方向是引入动力学，如模拟树木摇摆、物体形变、光照变化，以增强真实感并满足物理仿真和机器人训练的需求[9] 行业竞争格局 - 与OpenAI、Google等公司的重点不同：OpenAI主攻对话和通用Agent，重心不在空间理解；Google的Genie 3等世界模型更偏向研究和特定场景[10][11] - World Labs专注于构建可编程空间的基础设施，其World API生成的是可直接接入各种系统的空间数据，占据底层平台位置[11]