行业背景与赛道定义 - AI领域最前沿方向“世界模型”正经历革命,其核心挑战是智能体对空间智能感知的缺失,这横跨了虚拟与现实之间的鸿沟 [1] - 2024年,由李飞飞教授创立的World Labs强势入局,点燃了空间智能这一千亿级赛道的全球战火,该公司近期完成新一轮融资后估值飙升至50亿美元[1] - World Labs的核心产品RTFM(实时帧模型)是一个实时生成式世界模型,旨在构建拥有永久一致性的3D场景,使智能体能理解并实时交互物理世界 [1] 公司技术与产品突破:InSpatio-WorldFM - 国内创业公司影溯(InSpatio)发布并开源了实时帧生成模型 InSpatio-WorldFM,这是一个实时交互的3D世界模型,标志着中国团队在空间智能底层技术上取得奠基性突破 [2] - 该模型由浙江大学章国锋博士领衔的团队开发,凭借在3D视觉和空间计算领域20多年的底蕴,通过独创的**“数据升维”与“几何约束”策略,激活了互联网海量2D存量视频数据中蕴含的3D空间知识 [4] - 这一技术路径破解了行业“高质量、规模化3D数据贫矿”的局限,将海量2D数据高效转化为驱动3D世界模型的高维原动力 [5] - 模型能够高效进行多视角一致的空间推理**,并支持实时交互式探索[6] - 模型生成的3D虚拟世界具有高度一致性,在空间几何、光照与物理规律上非常稳定,无限时长推理不会出现遗忘和衰退[8] - 模型对算力需求低,目标是让实时空间推理能在消费级GPU上实现,甚至在单块RTX 4090 GPU上就能实现实时推理,将空间智能从数据中心扩展到边缘设备 [8] - 模型支持整体一致性编辑,可在保持几何、光照、材质与物理逻辑全局一致的前提下,进行跨视角、跨区域的统一调整,编辑对象是一个可控、连贯、具物理约束的三维世界本体[8][9] 核心技术路线与优势 - 当前主流世界模型(如谷歌Genie 3、OpenAI Sora)本质上是基于2D像素概率预测的视频生成模型,而影溯的技术路线是构建原生的3D世界[11][12] - 模型将**“三维多视图一致性”作为核心约束机制,赋予空间智能物理级的持久一致性**,解决了2D模型常见的物体变形、背景扭曲等问题 [14][16] - 这种3D机制突破了2D视频模型的极限时空记忆,解决了**“长时序遗忘”和“空间几何崩塌”问题 [17] - 模型采用“显式锚点 + 隐式记忆”混合架构设计,利用前馈式重建技术生成显式物理空间锚点,并提供隐式记忆,让AI拥有“三维坐标体系”,理论上生成的时长是无限的**[19][20] - 在训练上,团队利用在SLAM、NeRF和3DGS等领域的技术积累,能够极低成本地合成海量高质量的3D训练数据,打破了3D训练数据匮乏的行业瓶颈 [20] - 模型训练仅动用了100张卡的算力规模,远低于当前主流视频模型训练所需的算力 [13] - 模型展现出卓越的像素级前景锁定能力和精准运镜控制,支持将视频中的动态前景无缝转移到另一空间环境,并保证高度一致性 [12][13] 团队背景与商业壁垒 - 影溯核心团队由浙江大学计算机辅助设计与图形系统全国重点实验室(图形学全球排名第三)与原商汤科技3D视觉与混合现实团队的顶尖专家组成,堪称国内空间计算领域“梦之队”[24][25] - 创始人章国锋为浙江大学求是特聘教授、国家杰青,在SLAM和3D重建领域深耕超过20年[25] - 联合创始人兼CTO刘浩敏曾主导实现业内首个手机端无标志SLAM商业系统,比苹果ARKit和谷歌ARCore早了3年[25] - 公司已构建三维场景重建与生成平台,具备大尺度真实场景的快速扫描与重建生成能力,提供从数据采集到应用开发的完整工具链 [26] - 公司构建了行业内独有的**“3D数据升维引擎”,从海量视频中抽取3D知识,用几何约束工具链打破3D数据荒,这构成了其核心商业壁垒和技术护城河**[26][27] 战略定位与行业影响 - 与World Labs选择闭源不同,影溯确立了开源共建的核心战略,认为空间智能的未来应由全球开发者共同创造 [28] - 公司下一步计划提供更丰富的技术细节,并推出扩展版模型及支持与动态世界实时交互的体验应用 [28] - InSpatio-WorldFM等开源空间智能模型的推出,为生成模型、具身智能体和现实世界机器人提供了全新的起点 [29]
李飞飞50亿美金赛道被开源!浙大教授章国锋带队创业,打造无限时长实时3D世界模型
机器之心·2026-03-06 12:31