Workflow
物理驱动3D资产生成
icon
搜索文档
PhysX:南洋理工与上海AI Lab首创物理基础3D资产生成框架
具身智能之心· 2025-07-17 17:07
研究背景与动机 - 3D资产生成在游戏、机器人和具身仿真器等领域应用日益广泛,但现有研究多聚焦于外观和几何结构,忽视了真实世界目标固有的物理属性[4] - 真实目标除了结构特征外,还包含绝对尺度、材料、交互可能性、运动学参数和功能描述等物理与语义特性,这些特性是物理仿真、机器人操作等场景的关键基础[4] - 现有数据集存在明显局限:PartNet-Mobility虽包含2.7K带运动约束的3D模型,但缺乏尺寸、材料等物理描述;ABO数据集虽有材料元数据,但仅停留在目标层面,无法支持部件级应用[4] 核心贡献 - 首次提出端到端物理驱动3D资产生成范式:突破现有仅关注结构的局限,将物理属性融入3D生成全流程,为仿真等下游应用开辟新可能[8] - 构建首个物理驱动3D数据集PhysXNet:通过人机协同标注流程,将现有几何导向数据集转化为细粒度物理标注数据集,其扩展版PhysXNet-XL包含超600万通过程序生成的标注3D目标[8] - 设计双分支前馈框架PhysXGen:建模结构与物理特征的潜在关联,在保持几何质量的同时,生成具有合理物理属性的3D资产[8] PhysXNet数据集物理属性定义 - 数据集系统定义了三类属性:识别层(绝对尺度和材料)、功能层(交互优先级和功能描述)、操作层(运动学参数)[12] - 识别层包含绝对尺度(物理尺寸)和材料(包括杨氏模量E、泊松比ν、密度等)[12] - 功能层包含交互优先级(1-10的评分)和功能描述(基础、功能、运动学描述)[12] - 操作层包含运动学参数,包括5种运动类型(A无约束、B平移关节、C旋转关节、D铰链关节、E刚性关节,及组合类型CB),并标注父子部件、运动方向、范围等细节[12] 人机协同标注流程 - 标注流程分两阶段:初步数据获取(利用GPT-4o生成基础标注,经人工校验确保质量)和运动学参数确定(包括接触区域计算、平面拟合、候选生成与选择,最终经人工审核确定参数)[13] - 该流程高效将现有3D库(如PartNet)转化为物理标注数据集,平衡了效率与准确性[10] 数据分布 - PhysXNet包含超26K 3D目标,部件数量呈长尾分布,平均每个目标含约5个部件[11] - 物理尺寸跨度大(1-1000cm),呈长尾分布;运动类型中刚性关节(E)和旋转关节(C)占比最高[11] - 扩展版PhysXNet-XL通过程序生成,涵盖家具、容器等多类别,标签词云反映高频目标类型[11] PhysXGen框架设计 - 框架分两阶段:物理3D VAE latent空间学习和物理感知生成过程,核心是建模结构与物理属性的关联[15] - 属性编码将物理属性(绝对尺度、交互优先级、密度、运动学参数)和功能描述(经CLIP编码为文本嵌入)编码为统一物理latent空间[16] - 采用transformer架构的扩散模型,通过双分支结构融合结构与物理特征,利用条件流匹配作为优化目标[17] 定量实验结果 - 与基线方法对比:PhysXGen在几何指标(PSNR 24.53、CD 12.7、F-Score 77.3)和物理属性(绝对尺度误差6.63、材料误差0.141等)上均优于TRELLIS+PhysPre[18] - 消融实验表明:同时利用VAE和扩散模型中的结构与物理关联时性能最优,说明双分支协同的有效性[20] 定性实验结果 - 给定单张图像提示,PhysXGen能生成包含详细物理属性(如尺寸、材料、运动范围)的3D资产[22] - 在绝对尺度、材料、运动学等方面,PhysXGen的生成结果与真实值更接近,尤其在部件级功能描述和交互优先级上表现更稳定[24] 局限性与未来方向 - 当前方法在细粒度属性学习上存在局限,易产生伪影[26] - 未来将改进细粒度属性学习,扩展数据集多样性,增加物理属性和运动类型以更好仿真材料行为和运动[26]