文章核心观点 - 全球科技界正围绕“世界模型”展开激烈竞争,其核心是让AI理解并重构物理世界,而中国初创公司影溯(InSpatio)通过发布开源世界模型InSpatio-World,凭借创新的3D架构和极高的效率,实现了范式突破,在该领域取得了领先地位,并展示了巨大的商业化潜力 [1][2][18] 行业背景与竞争格局 - 全球资本与顶尖研究机构正押注“世界模型”的未来,例如李飞飞的World Labs获得百亿美元估值,Yann LeCun创下10.3亿美元种子轮融资纪录,Google与NVIDIA也投入海量算力进行资源博弈 [1] - 行业在“如何表征世界”上存在根本分歧:2D路线(如NVIDIA的Cosmos、Google的Genie)依赖海量视频进行视觉统计学习,但易出现物理一致性坍塌;3D路线(如World Labs的Marble)坚持直接建模空间结构,但受限于高质量3D数据稀缺 [16][17] - 业界普遍认为,如果说大语言模型(LLM)定义了过去的AI浪潮,那么世界模型正在定义下一轮,它将重写自动驾驶、虚拟现实(VR/AR)、具身智能等多个行业的底层逻辑 [30] 公司技术与产品突破 - 影溯发布并开源了世界模型InSpatio-World,在权威榜单WorldScore-Dynamic中力压其他实时/交互级推理速度的世界模型,登顶榜首 [2][7][18] - 该模型彻底摒弃了纯2D视频路径,采用更具第一性原理的3D空间架构,仅用数百万元人民币的研发全周期训练成本,便在核心指标上反超了AI巨头的模型,实现了“效率奇迹” [2] - 模型推理效率极高,在单张专业级显卡(如RTX 4090)上就能实现24 FPS(或10 FPS)的流畅推理,仅需百卡级别的算力即可完成快速训练,极大降低了商业化门槛 [2][10] - 技术核心在于“状态锚定世界建模”范式,通过显式建模“世界状态”,实现了观测视角与物理实体的解耦,使时间演化成为3D状态的物理更新,依托“显式状态建模、时空自回归框架、联合分布匹配蒸馏”三大核心技术 [20][23] - 该模型实现了从“像素生成”到“实时仿真”的跨越,交付的不再是静态视频,而是一个响应式、可交互的“鲜活世界”,支持自由暂停、精准回溯和介入交互 [19][24] 团队背景与研发路径 - 影溯团队具有深厚的“国家队”背景和产学研协同优势,首席科学家鲍虎军教授在图形学、空间计算领域有数十年积累,创始人章国锋教授兼具学术研究与产业落地(如商汤科技)经验,联合创始人刘浩敏博士及其团队负责工程化实现 [27] - 团队构建了贯通三维感知、实时计算与物理仿真的全栈技术和工程能力闭环,形成了从实验室“从0到1”范式突破到产业端“从1到N”效率攻坚的完整技术闭环 [26][27][28] - 团队选择了一条独特的技术路径:将海量2D视频转化为可学习的3D动态表示,巧妙地绕过了3D数据稀缺的瓶颈,并实现了从静态3D重建(InSpatio-WorldFM)到动态4D演化(InSpatio-World)的跨越 [20] 应用前景与商业化进展 - InSpatio-World能够将一段普通单目视频“复活”成一个鲜活的4D世界,使平面的像素跃升为可反复进入、沉浸体验的立体记忆空间,定义了下一代可交互数字资产 [7][8][10] - 该模型是具身智能与自动驾驶非常理想、有效的虚拟训练场,可构建可控的虚拟世界用于生成大量长尾场景,进行反复试错和策略优化 [10][30] - 在虚拟现实(VR/AR)领域,有望缓解“空间内容供给瓶颈”,将文本、图像或视频直接转化为可探索的三维空间 [30] - 在具身智能领域,能让机器人具备“行动前的模拟”能力,进行内部推演和自主决策 [30] - 公司目前已收到全球数十家机器人、自动驾驶与内容巨头的深度商业化需求,正全力加速产业落地 [32]
登顶全球权威榜单!浙大创业团队百卡打造开源实时世界模型,视频秒变可交互4D世界
机器之心·2026-03-20 13:21