登顶全球权威榜单！浙大创业团队百卡打造开源实时世界模型，视频秒变可交互4D世界

文章核心观点 - 全球科技界正围绕“世界模型”展开激烈竞争，其核心是让AI理解并重构物理世界，而中国初创公司影溯（InSpatio）通过发布开源世界模型InSpatio-World，凭借创新的3D架构和极高的效率，实现了范式突破，在该领域取得了领先地位，并展示了巨大的商业化潜力 [1][2][18] 行业背景与竞争格局 - 全球资本与顶尖研究机构正押注“世界模型”的未来，例如李飞飞的World Labs获得百亿美元估值，Yann LeCun创下10.3亿美元种子轮融资纪录，Google与NVIDIA也投入海量算力进行资源博弈 [1] - 行业在“如何表征世界”上存在根本分歧：2D路线（如NVIDIA的Cosmos、Google的Genie）依赖海量视频进行视觉统计学习，但易出现物理一致性坍塌；3D路线（如World Labs的Marble）坚持直接建模空间结构，但受限于高质量3D数据稀缺 [16][17] - 业界普遍认为，如果说大语言模型（LLM）定义了过去的AI浪潮，那么世界模型正在定义下一轮，它将重写自动驾驶、虚拟现实（VR/AR）、具身智能等多个行业的底层逻辑 [30] 公司技术与产品突破 - 影溯发布并开源了世界模型InSpatio-World，在权威榜单WorldScore-Dynamic中力压其他实时/交互级推理速度的世界模型，登顶榜首 [2][7][18] - 该模型彻底摒弃了纯2D视频路径，采用更具第一性原理的3D空间架构，仅用数百万元人民币的研发全周期训练成本，便在核心指标上反超了AI巨头的模型，实现了“效率奇迹” [2] - 模型推理效率极高，在单张专业级显卡（如RTX 4090）上就能实现24 FPS（或10 FPS）的流畅推理，仅需百卡级别的算力即可完成快速训练，极大降低了商业化门槛 [2][10] - 技术核心在于“状态锚定世界建模”范式，通过显式建模“世界状态”，实现了观测视角与物理实体的解耦，使时间演化成为3D状态的物理更新，依托“显式状态建模、时空自回归框架、联合分布匹配蒸馏”三大核心技术 [20][23] - 该模型实现了从“像素生成”到“实时仿真”的跨越，交付的不再是静态视频，而是一个响应式、可交互的“鲜活世界”，支持自由暂停、精准回溯和介入交互 [19][24] 团队背景与研发路径 - 影溯团队具有深厚的“国家队”背景和产学研协同优势，首席科学家鲍虎军教授在图形学、空间计算领域有数十年积累，创始人章国锋教授兼具学术研究与产业落地（如商汤科技）经验，联合创始人刘浩敏博士及其团队负责工程化实现 [27] - 团队构建了贯通三维感知、实时计算与物理仿真的全栈技术和工程能力闭环，形成了从实验室“从0到1”范式突破到产业端“从1到N”效率攻坚的完整技术闭环 [26][27][28] - 团队选择了一条独特的技术路径：将海量2D视频转化为可学习的3D动态表示，巧妙地绕过了3D数据稀缺的瓶颈，并实现了从静态3D重建（InSpatio-WorldFM）到动态4D演化（InSpatio-World）的跨越 [20] 应用前景与商业化进展 - InSpatio-World能够将一段普通单目视频“复活”成一个鲜活的4D世界，使平面的像素跃升为可反复进入、沉浸体验的立体记忆空间，定义了下一代可交互数字资产 [7][8][10] - 该模型是具身智能与自动驾驶非常理想、有效的虚拟训练场，可构建可控的虚拟世界用于生成大量长尾场景，进行反复试错和策略优化 [10][30] - 在虚拟现实（VR/AR）领域，有望缓解“空间内容供给瓶颈”，将文本、图像或视频直接转化为可探索的三维空间 [30] - 在具身智能领域，能让机器人具备“行动前的模拟”能力，进行内部推演和自主决策 [30] - 公司目前已收到全球数十家机器人、自动驾驶与内容巨头的深度商业化需求，正全力加速产业落地 [32]