世界模型（World Model） - 财报，业绩电话会，研报，新闻

世界模型（World Model）

搜索文档

挑战WorldLabs：Visionary，一个全面超越Marble底层渲染器的WebGPU渲染平台

机器之心· 2025-12-21 12:21

文章核心观点 - 世界模型（World Model）在Web端的可视化与交互面临底层渲染能力瓶颈，现有基于WebGL的方案（如SparkJS）在大场景、复杂场景及动态内容接入上存在性能天花板 [5][7][8] - 开源项目Visionary通过基于WebGPU与ONNX的技术架构，在浏览器中实现了真正的动态3DGS/4DGS实时渲染，旨在成为面向世界模型/空间智能的Web原生渲染基座，并在性能与画质上全面超越现有方案 [2][9][10][27] 技术背景与行业痛点 - 神经渲染路线中的3D Gaussian Splatting（3DGS）因其高效性，已成为构建世界模型的重要表示形式 [6] - 现有3DGS落地方案存在断层：桌面端/引擎方案（如SIBR、Unity）性能强但部署复杂；现有Web端方案（如SparkJS、SuperSplat）受限于WebGL管线，难以支持实时推理的动态3DGS、Neural Avatar及生成式模型 [7] Visionary解决方案与架构 - 项目定位为面向世界模型/空间智能的Web原生渲染基座，而非简单的3DGS查看器 [9][10][14] - 核心采用WebGPU原生架构，替代WebGL，将GPU计算与渲染真正带入浏览器 [10] - 设计核心是提出了Gaussian Generator Contract：通过ONNX驱动的统一接口，将每帧高斯生成/更新抽象为标准化的模型契约，使得渲染器不再受限于具体算法细节 [11][13] - 该设计首次在浏览器端实现了每帧动态生成与更新高斯、同一渲染器承载多种3DGS变体以及接入生成式后处理（如风格化、增强）的能力 [13] 性能与效果优势 - 在包含数百万高斯点的典型场景中，Visionary的渲染效率显著优于当前主流Web端查看器SparkJS [16][18] - Visionary将排序与预处理完全迁移至GPU（WebGPU），显著降低端到端延迟，而SparkJS的性能瓶颈主要集中在CPU排序阶段 [18] - 在渲染正确性与画质方面，Visionary采用逐帧GPU全局排序，避免了SparkJS在快速视角变化下出现的lazy sorting视觉伪影，在Mip-NeRF360等基准上画质指标持平或略有提升 [19][21] - 同时避免了如SuperSplat等方案中的逐物体排序混合错误，在多模型混合场景下仍能保证透明度渲染正确 [21] 应用场景与生态支持 - 为研究、创作与工业应用提供了统一平台：研究者可快速复现、对比与展示任意可导出为ONNX的3DGS变体；创作者可在浏览器中完成编辑、录制与渲染；工业界可应用于数字孪生、仿真、XR、具身智能等大规模实时场景 [22][24] - 项目已在GitHub完全开源，采用宽松协议，并已获得Firefox/Chrome WebGPU相关开发者的关注与反馈 [25] - 目前已原生支持MLP-based 3DGS (Scaffold-GS)、4D Gaussian Splatting、Neural Avatar (LHM、GauHuman、R³-Avatar等)、ONNX生成式后处理（风格化、增强），全部渲染流程均在浏览器端完成 [25] 未来发展方向 - 团队表示Visionary是迈向统一世界模型框架的第一步，未来将进一步探索物理交互增强（碰撞检测与Mesh管线融合）、物理感知建模（结合MPM等方法模拟真实动力学）、空间智能体（基于多模态大模型的空间推理与交互）以及下游应用桥接（支持具身AI的Sim-to-Real迁移） [26][28]