3D资产生成
搜索文档
ICML 2026 | PhysForge框架来了,让3D资产从静态模型变成可交互对象
机器之心· 2026-06-09 12:09
核心观点 - 香港大学与腾讯混元等机构的研究者提出了PhysForge框架,该框架仅需单张输入图像,即可生成具备部件结构、物理属性、功能语义和精确运动学参数的“physics-grounded 3D资产”,标志着3D资产生成从静态外观向可交互功能的重大演进[1][4][24] 效果展示 - PhysForge仅需单张输入图像,生成结果不仅包含高质量几何和纹理,还具备部件结构及详细的物理属性标签[4] - 对于可动部件,框架会预测关节轴、关节原点和运动范围等运动学参数,并给出可交互方式,使生成资产可被打开、按压或抓取[4] - 在机器人仿真中,PhysForge生成的资产被导入RoboTwin环境后,机械臂能够识别并按照关节约束操作其功能部件,如打开柜门或拉出抽屉[5] 需求背景 - 在具身智能和交互式虚拟环境中,视觉逼真只是第一步,真正可交互的3D资产还需具备物理属性和运动学定义,以决定其能否被仿真器、游戏引擎和具身智能系统真正使用[8][9] - 交互式资产生成必须根植于功能逻辑和层级化物理结构,形状应是功能、材料、约束和可操作性的共同体现[9] 方法介绍 - PhysForge采用两阶段“规划-生成”策略:第一阶段由视觉语言模型(VLM)作为“physical architect”进行物理规划,生成定义部件边界框、层级关系、关节类型、材质、质量、功能等信息的层级化物理蓝图[11][13] - 第二阶段由扩散模型完成几何、纹理与运动学参数的联合生成,通过提出的KineVoxel Injection机制,将可动部件的关节原点、关节轴和运动限制编码为运动体素,并与几何体素一同进入统一的去噪扩散过程,协同学习部件形态与运动方式[13][14] - 该框架最终能同时输出高质量几何、纹理、部件结构和精确运动学参数,使单图生成的3D资产具备直接进入交互环境的能力[15] 数据基础 - 为支撑研究,构建了PhysDB大规模数据集,包含15万3D资产,覆盖家居、工业、武器、个人物品、车辆、科技电子及文化物品等七大类别[17] - PhysDB提供细粒度、层级化的物理标注,分为整体属性、静态属性、功能属性和交互属性四层,让模型学习“部件是什么、能做什么、应如何被操作”,为physics-grounded 3D资产生成提供了关键数据基础[18][26] 下游应用 - 在机器人仿真领域,生成的资产可作为可操作环境对象,扩充仿真场景,降低手工建模、关节绑定和物理参数配置成本,助力机器人在多样化物体上学习真实交互[23] - 在虚拟世界与游戏引擎中,生成的资产已具备材质、质量、功能和关节信息,开发者可更直接地构建复杂交互逻辑,无需从零手工配置每个可动物体[23] - 在具身智能体与环境交互方面,物理蓝图生成的文本化信息允许智能体通过自然语言查询资产结构和功能,从而形成更明确的任务计划,例如知晓柜门位置、把手所属部件及旋转关节以完成打开操作[23]