ICLR 2026｜CMU等团队让AI生成的3D场景真正「站得住」：PAT3D把文生3D从能看推进到能模拟、能交互

研究背景与问题 - 当前3D AIGC技术能快速生成场景，但生成的场景在物理模拟中会暴露物体悬空、互相穿插、易散架等问题，难以直接用于游戏、XR或机器人等实际应用场景[2] - 问题的根源在于过去的文生3D方法主要优化视觉效果，忽略了场景的物理合理性，导致其在接触、支撑关系和整体稳定性上存在缺陷[2] 解决方案：PAT3D方法 - PAT3D由卡耐基梅隆大学、香港大学和香港科技大学的研究团队提出，旨在生成不仅在视觉上合理，而且在物理上成立、可直接用于编辑、交互和仿真的3D场景[3] - 第一阶段：3D物体与空间关系抽取 系统根据文本提示生成参考图，利用视觉语言模型识别物体类别、材质和相对位置，并将图像分割成多个对象区域，为每个对象独立生成3D资产，使其能作为独立刚体参与物理计算[8] - 第二阶段：布局初始化 利用单目深度估计将2D参考图回投成粗略3D布局，并根据物体依赖关系构建描述物理依赖（如“支撑”“包含”）的“场景树”，随后进行水平去重叠和垂直分离调整，得到无穿插、适合进入物理模拟的初始化场景[8] - 第三阶段：布局优化 引入libuipc的可微刚体仿真，让物体在重力和接触力作用下向静力平衡演化，并通过基于物理模拟的闭环优化，定义语义损失并反向调整初始布局，最终得到既稳定又尽量保留文本语义的场景[9] 实验结果与性能 - 在包含18个复杂提示词的测试中，PAT3D在关键物理指标上表现突出：继续模拟位移为0，物体穿插比例为0，物理合理性评分高达88.5[15] - 定量对比显示，PAT3D的Clip Score为31.79，VQA Score为0.68，均优于GraphDreamer、Blender-MCP、MIDI等对比方法，且在位移和穿插比例上均为0[16] - 在书本、杯子、餐具、积木、水果篮等接触关系复杂的场景中，PAT3D能有效避免物体悬空和模拟后坍塌，并明显减少摆放错位[17] 应用前景与意义 - 场景编辑 PAT3D支持增删物体后的物理一致场景编辑，场景能在模拟中重新达到平衡，使未来的3D内容创作更接近“搭积木”[20] - 动画制作 生成的场景满足基本物理约束，可直接用于后续动画制作，无需大量手动修正初始布局，将大幅提高传统物理仿真动画的制作效率[22] - 机器人仿真 生成的场景可直接导入模拟器，用于测试抓取成功与否、操作过程中物体会否倾倒，为机器人训练和评估提供大量更可信的环境[23] - PAT3D的意义在于让3D生成更接近真正可用，其面向的是完整的数字内容生产流程以及机器人、仿真等真实应用场景，其源代码已在Apache-2.0许可下开源，为社区验证、扩展和落地提供了基础[25]