腾讯王腾飞:从生成内容到生成环境,世界模型的3D落地之路

文章核心观点 - 世界模型不是“更好的视频生成”,而是一次范式跃迁,其核心是交付“可运行环境”,而非仅交付“内容” [3][6][8] - 3D是世界模型落地的重要路径,因其具备一致性、资产概念、物理精确性及成本优势,是唯一能真正交付到生产环节的形态 [12][13][14] - 游戏数字世界是物理世界的“可控代理”,两者在核心技术框架(感知、仿真、推理、规划)上高度一致,可相互复用 [6][29] - 世界模型生态当前最稀缺的是评测标准,而非模型本身 [6][31] 对世界模型的理解与定义 - 公司对世界模型的理解与李飞飞提出的“渲染器、仿真器、规划器”三层框架略有不同,更倾向于将渲染与仿真合并看待 [4] - 世界模型需满足三个核心特征:状态持续、物理准确、可交互 [9][16] - 世界模型与普通视频生成、3D生成最本质的区别在于可交互性与可维护的世界状态 [8] 技术路径与产品布局 - 公司遵循“能力积木化、最终系统化”的技术路径,各模块独立输出价值,整合后涌现更大能力边界 [7] - 已在世界仿真与渲染层布局WorldPlay、WorldStereo等视频模型,以及WorldMirror、HY 3D等仿真资产生成模型 [5] - 已在世界规划层布局WorldNav及后续系列模型,支撑导航与操作任务 [5] - 将各模块能力整合推出HY World产品,用户输入简单文本或图像即可生成完整、可交互、可仿真的3D世界,并配套专用渲染器WorldLens实现高效实时渲染 [5] 3D作为落地路径的核心原因 - 3D天然具备一致性,且兼容现有管线:采用显式3DGS表达,可提取mesh,直接接入标准图形管线、游戏引擎及仿真平台 [13] - 3D具备“资产”概念:生成的是可编辑、可复用、可接入工作流的结构化资产,而视频帧仅是最终影像或素材 [13] - 3D具备物理精确性:结合重建模型WorldMirror,能输出真实的深度、法线和点云数据,满足精准模拟仿真的需求 [13] - 3D具备成本优势:建模成本是一次性的,边际成本极低;而视频生成需要持续消耗算力进行推理 [14] 应用场景判断标准 - 判断是否需要世界模型的核心在于应用场景是否需要“交互” [10] - 指向“交互”需求的三个信号:持久的世界状态、可编辑可复用的资产、物理交互,满足条件越多,对世界模型需求越强 [11] - 被动观看型内容(如营销短片、概念图)适合视频生成;需要接入可运行系统的场景(如游戏、机器人仿真、VR漫游)则依赖3D和世界模型 [17][18] HY-World 2.0技术架构与生成流程 - 不采用端到端模型的原因:缺乏成对训练数据,且模块化方案可控性、可解释性更强 [20] - 生成流程分为四个阶段,对应人类“感知世界→理解世界→想象世界→重建世界”的认知过程 [21] - 第一阶段(全景生成,HY-Pano):将输入转化为360°全景,提供全局自洽的初始化 [21] - 第二阶段(轨迹规划,WorldNav):将全景解析为点云、mesh等,并规划探索路线 [21] - 第三阶段(世界扩展,WorldStereo):沿规划轨迹补全未观测区域,保持全局一致性 [22] - 第四阶段(世界合成,WorldMirror):将多视角视图重建为精确几何结构,得到可自由漫游的3D世界 [22] 关键模块技术优势 - WorldMirror 2.0大幅降低三维重建门槛:单次前向传播即可输出全套自洽统一的几何结果;凭借学习到的先验知识,在稀疏视角等“不完美”输入下稳定工作;采用前馈式预测,速度快,无需针对每个场景单独优化 [23] - WorldLens作为专用渲染平台,承担三项核心功能:自动IBL光照、高效碰撞检测、训练-渲染协同设计,确保生成的世界能实时、高质量地“跑起来” [24][25] 物理交互能力与挑战 - “兼容物理引擎”意味着对生成内容进行轻量化处理,使其能接入标准图形管线,实现实时碰撞检测与物理反馈 [27] - 目前已成熟的能力包括:静态场景碰撞、漫游导航、角色与环境碰撞交互、基本重力与刚性反馈、一致的光照系统 [27] - 仍面临的挑战包括:动态物体生成与交互、铰接与可形变物理效果实现、物理参数准确估计、物体级语义解耦与可交互编辑 [28][32] 生态建设与开发者机会 - 公司选择开源HY-World 2.0全部模型权重、代码和技术细节,旨在推动生态建设 [30] - 当前生态中最具价值的三个探索方向:建立量化“世界好坏”的评测标准;开发工具链适配与工作流插件;进行垂直领域(如自动驾驶、具身智能)适配 [31]

腾讯王腾飞:从生成内容到生成环境,世界模型的3D落地之路 - Reportify