ICLR 2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互
机器之心·2026-05-01 11:30

研究背景与问题 - 当前3D AIGC技术能快速生成场景,但生成的场景在物理模拟中会暴露物体悬空、互相穿插、易散架等问题,难以直接用于游戏、XR或机器人等实际应用场景[2] - 问题的根源在于过去的文生3D方法主要优化视觉效果,忽略了场景的物理合理性,导致其在接触、支撑关系和整体稳定性上存在缺陷[2] 解决方案:PAT3D方法 - PAT3D由卡耐基梅隆大学、香港大学和香港科技大学的研究团队提出,旨在生成不仅在视觉上合理,而且在物理上成立、可直接用于编辑、交互和仿真的3D场景[3] - 第一阶段:3D物体与空间关系抽取 系统根据文本提示生成参考图,利用视觉语言模型识别物体类别、材质和相对位置,并将图像分割成多个对象区域,为每个对象独立生成3D资产,使其能作为独立刚体参与物理计算[8] - 第二阶段:布局初始化 利用单目深度估计将2D参考图回投成粗略3D布局,并根据物体依赖关系构建描述物理依赖(如“支撑”“包含”)的“场景树”,随后进行水平去重叠和垂直分离调整,得到无穿插、适合进入物理模拟的初始化场景[8] - 第三阶段:布局优化 引入libuipc的可微刚体仿真,让物体在重力和接触力作用下向静力平衡演化,并通过基于物理模拟的闭环优化,定义语义损失并反向调整初始布局,最终得到既稳定又尽量保留文本语义的场景[9] 实验结果与性能 - 在包含18个复杂提示词的测试中,PAT3D在关键物理指标上表现突出:继续模拟位移为0,物体穿插比例为0,物理合理性评分高达88.5[15] - 定量对比显示,PAT3D的Clip Score为31.79,VQA Score为0.68,均优于GraphDreamer、Blender-MCP、MIDI等对比方法,且在位移和穿插比例上均为0[16] - 在书本、杯子、餐具、积木、水果篮等接触关系复杂的场景中,PAT3D能有效避免物体悬空和模拟后坍塌,并明显减少摆放错位[17] 应用前景与意义 - 场景编辑 PAT3D支持增删物体后的物理一致场景编辑,场景能在模拟中重新达到平衡,使未来的3D内容创作更接近“搭积木”[20] - 动画制作 生成的场景满足基本物理约束,可直接用于后续动画制作,无需大量手动修正初始布局,将大幅提高传统物理仿真动画的制作效率[22] - 机器人仿真 生成的场景可直接导入模拟器,用于测试抓取成功与否、操作过程中物体会否倾倒,为机器人训练和评估提供大量更可信的环境[23] - PAT3D的意义在于让3D生成更接近真正可用,其面向的是完整的数字内容生产流程以及机器人、仿真等真实应用场景,其源代码已在Apache-2.0许可下开源,为社区验证、扩展和落地提供了基础[25]

ICLR 2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互 - Reportify