核心观点 - World Labs推出的World API标志着人工智能从生成视频内容向构建可交互三维空间的重大跨越,其核心是生成具备物理规则与几何结构的数字世界,旨在赋予机器空间智能[1] - 该产品定位为下一代空间智能的底层平台和可编程空间的基础设施,而非简单的生成式AI应用,公司正洽谈新一轮融资,目标估值达50亿美元,是此前10亿美元估值的五倍[8][11] 产品定位与技术差异 - World API生成的是完整的空间结构和几何模型,具备物理关系和可交互性,与Sora等生成固定角度连续视频流的工具有本质区别,后者是给人看的内容,而前者是给机器用的环境[1][2] - 其输出正从内容变成环境,解决的是“能做什么”的问题,为游戏、机器人训练、VR/AR等需要可探索、可训练、可沉浸空间的场景提供基础[3][5] 核心技术能力 - 采用多模态输入技术,支持文本、图片、视频、全景图,通过融合语言、语义、几何和物理信息来还原完整的3D空间[7] - 具备语义理解与编辑能力,能理解“沉重”、“中央”等自然语言中蕴含的物理和空间信息,无需创作者转换为精确数值或学习专业软件[8] - 提供可视化工具Chisel(凿子),允许用户通过放置几何约束来辅助AI生成完整场景,降低了3D内容创作门槛[8] 目标市场与应用场景 - 主要面向三类核心应用场景:游戏开发(可快速生成可用关卡)、机器人训练(可从视频生成可训练的3D仿真环境)、VR/AR(降低3D内容制作门槛)[9] - 技术下一步方向是引入动力学,如模拟树木摇摆、物体形变、光照变化,以增强真实感并满足物理仿真和机器人训练的需求[9] 行业竞争格局 - 与OpenAI、Google等公司的重点不同:OpenAI主攻对话和通用Agent,重心不在空间理解;Google的Genie 3等世界模型更偏向研究和特定场景[10][11] - World Labs专注于构建可编程空间的基础设施,其World API生成的是可直接接入各种系统的空间数据,占据底层平台位置[11]
世界模型怎么才算“能用”?李飞飞把它做成了 API
36氪·2026-01-29 09:07