腾讯王腾飞：从生成内容到生成环境，世界模型的3D落地之路

文章核心观点 - 世界模型不是“更好的视频生成”，而是一次范式跃迁，其核心是交付“可运行环境”，而非仅交付“内容” [3][6][8] - 3D是世界模型落地的重要路径，因其具备一致性、资产概念、物理精确性及成本优势，是唯一能真正交付到生产环节的形态 [12][13][14] - 游戏数字世界是物理世界的“可控代理”，两者在核心技术框架（感知、仿真、推理、规划）上高度一致，可相互复用 [6][29] - 世界模型生态当前最稀缺的是评测标准，而非模型本身 [6][31] 对世界模型的理解与定义 - 公司对世界模型的理解与李飞飞提出的“渲染器、仿真器、规划器”三层框架略有不同，更倾向于将渲染与仿真合并看待 [4] - 世界模型需满足三个核心特征：状态持续、物理准确、可交互 [9][16] - 世界模型与普通视频生成、3D生成最本质的区别在于可交互性与可维护的世界状态 [8] 技术路径与产品布局 - 公司遵循“能力积木化、最终系统化”的技术路径，各模块独立输出价值，整合后涌现更大能力边界 [7] - 已在世界仿真与渲染层布局WorldPlay、WorldStereo等视频模型，以及WorldMirror、HY 3D等仿真资产生成模型 [5] - 已在世界规划层布局WorldNav及后续系列模型，支撑导航与操作任务 [5] - 将各模块能力整合推出HY World产品，用户输入简单文本或图像即可生成完整、可交互、可仿真的3D世界，并配套专用渲染器WorldLens实现高效实时渲染 [5] 3D作为落地路径的核心原因 - 3D天然具备一致性，且兼容现有管线：采用显式3DGS表达，可提取mesh，直接接入标准图形管线、游戏引擎及仿真平台 [13] - 3D具备“资产”概念：生成的是可编辑、可复用、可接入工作流的结构化资产，而视频帧仅是最终影像或素材 [13] - 3D具备物理精确性：结合重建模型WorldMirror，能输出真实的深度、法线和点云数据，满足精准模拟仿真的需求 [13] - 3D具备成本优势：建模成本是一次性的，边际成本极低；而视频生成需要持续消耗算力进行推理 [14] 应用场景判断标准 - 判断是否需要世界模型的核心在于应用场景是否需要“交互” [10] - 指向“交互”需求的三个信号：持久的世界状态、可编辑可复用的资产、物理交互，满足条件越多，对世界模型需求越强 [11] - 被动观看型内容（如营销短片、概念图）适合视频生成；需要接入可运行系统的场景（如游戏、机器人仿真、VR漫游）则依赖3D和世界模型 [17][18] HY-World 2.0技术架构与生成流程 - 不采用端到端模型的原因：缺乏成对训练数据，且模块化方案可控性、可解释性更强 [20] - 生成流程分为四个阶段，对应人类“感知世界→理解世界→想象世界→重建世界”的认知过程 [21] - 第一阶段（全景生成，HY-Pano）：将输入转化为360°全景，提供全局自洽的初始化 [21] - 第二阶段（轨迹规划，WorldNav）：将全景解析为点云、mesh等，并规划探索路线 [21] - 第三阶段（世界扩展，WorldStereo）：沿规划轨迹补全未观测区域，保持全局一致性 [22] - 第四阶段（世界合成，WorldMirror）：将多视角视图重建为精确几何结构，得到可自由漫游的3D世界 [22] 关键模块技术优势 - WorldMirror 2.0大幅降低三维重建门槛：单次前向传播即可输出全套自洽统一的几何结果；凭借学习到的先验知识，在稀疏视角等“不完美”输入下稳定工作；采用前馈式预测，速度快，无需针对每个场景单独优化 [23] - WorldLens作为专用渲染平台，承担三项核心功能：自动IBL光照、高效碰撞检测、训练-渲染协同设计，确保生成的世界能实时、高质量地“跑起来” [24][25] 物理交互能力与挑战 - “兼容物理引擎”意味着对生成内容进行轻量化处理，使其能接入标准图形管线，实现实时碰撞检测与物理反馈 [27] - 目前已成熟的能力包括：静态场景碰撞、漫游导航、角色与环境碰撞交互、基本重力与刚性反馈、一致的光照系统 [27] - 仍面临的挑战包括：动态物体生成与交互、铰接与可形变物理效果实现、物理参数准确估计、物体级语义解耦与可交互编辑 [28][32] 生态建设与开发者机会 - 公司选择开源HY-World 2.0全部模型权重、代码和技术细节，旨在推动生态建设 [30] - 当前生态中最具价值的三个探索方向：建立量化“世界好坏”的评测标准；开发工具链适配与工作流插件；进行垂直领域（如自动驾驶、具身智能）适配 [31]