研究背景与动机 - 3D资产在游戏、机器人和具身模拟等领域应用广泛,但现有生成方法主要关注几何结构与纹理,忽略了物理属性建模[8] - 现实世界物体具有丰富的物理和语义特性,包括物理尺度、材料、可供性、运动学信息和文本描述,这些属性与经典物理原理结合可推导出动态指标[8] - 物理属性难以测量且标注耗时,导致现有相关数据集数据量难以扩展,存在关键空白[11] PhysXNet数据集 - 提出首个系统性标注的物理基础3D数据集PhysXNet,包含超过26,000个带有丰富注释的3D物体,涵盖五个核心维度:物理尺度、材料、可供性、运动学信息和文本描述[6] - 除了物体层级注释,还对每个零部件进行物理属性标注,包括可供性排名和运动学约束的详细参数[9] - 引入扩展版本PhysXNet-XL,包含超过600万个通过程序化生成并带有物理注释的3D对象[9] - 采用人在回路的标注流程,利用GPT-4o获取基础信息并由人工审核员检查,确保数据质量[13] PhysXGen生成框架 - 提出面向真实物理世界的3D生成框架PhysXGen,实现从图像到真实3D资产的生成[6] - 基于预训练的3D表示空间,将物理属性与几何结构和外观相结合,通过联合优化实现物理上的自洽性[18] - 利用物理属性与预定义3D结构空间之间的相关性,在物理属性生成和外观质量方面均取得显著提升[20] 性能评估与对比 - 在四个评估维度上,PhysXGen相比基于GPT的基线方法取得显著优势:物理尺度提升24%、材料提升64%、运动学提升28%、可供性提升72%[23] - 定量结果显示,PhysXGen在PSNR指标上达到24.53,CD指标为12.7,F-Score为77.3,均优于对比方法[21][24] - 在物理属性评估方面,PhysXGen在绝对尺度误差为6.63,材料误差0.141,可供性误差0.372,运动学参数误差0.479,描述误差0.71,全面优于基线方法[21][24] 行业意义与应用前景 - 该研究填补了现有3D资产与真实世界之间的差距,提出端到端的物理基础3D资产生成范式[27] - 数据集和生成框架将吸引来自嵌入式人工智能、机器人学以及3D视觉等多个研究领域的广泛关注[27] - 为3D空间中对物理建模、理解与推理的需求提供了完整的解决方案,从上游数据标注到下游生成建模构建了完整体系[8][27]
NeurIPS 2025 Spotlight | PhysX-3D:面向真实物理世界的3D资产生成范式
机器之心·2025-10-11 16:06