一张图生成任意场景3D模型,部分遮挡也不怕|IDEA x 光影焕像联合开源
量子位·2026-01-25 11:34

行业痛点与现有技术局限 - 当前3D生成技术深陷“半开放”窘境,模型能打造精美的样板间,但对真实世界中千变万化的物体与场景表现不稳定[1] - 3D场景数据的采集和标注成本极高,导致现有技术长期受限于数据规模,往往只能处理室内场景和少数家具类物体,无法应对开放世界[4] - 现有技术存在三大局限:场景受限,只能处理客厅、卧室等室内场景,对街道、公园等开放场景束手无策[4];遮挡难题,面对物体互相遮挡时,模型缺乏“遮挡常识”,只能生成残缺、扭曲的3D几何形状[5];泛化不足,对于没见过的物体(如小众手办、特殊工具),模型无法准确重建其3D结构及位姿[6] SceneMaker技术框架与原理 - SceneMaker框架由IDEA研究院与香港科技大学团队联合推出,旨在从任意开放世界图像(室内/室外/合成图等)到带Mesh的3D场景的完整重建[2] - 框架分为三大模块:场景感知,使用DINO-X万物检测模型识别并分割图像中所有物体,再通过深度估计模型得到3D点云[9];三维物体重建,使用解耦的图像去遮挡模型对分割后的物体进行去遮挡,得到完整物体图像后输入Triverse万物重建模型完成3D重建,获得显式几何和纹理信息[9];位姿估计,基于场景图像和点云,估计重建3D物体在场景中的旋转、平移和尺寸等位姿信息,并将所有物体组合得到最终3D场景[9] 核心技术创新 - 解耦的去遮挡模块:将去遮挡模型从3D重建中解耦,充分利用图像数据集的开放集先验,先对物体图像去遮挡,再进行3D重建,解决了因缺乏3D遮挡数据训练导致的几何残缺问题[11];该模块基于包含三种常见遮挡情况(物体遮挡、图像边角和用户涂抹)的数据集训练,并支持文本指令可控的去遮挡能力,能够控制不可见部分的内容[11][12] - 统一的位姿估计模型:采用扩散模型为基础,结合全局和局部注意力机制,精准计算物体位姿[16];模型包含四种注意力机制:局部自注意力确保物体内部几何与位姿对齐[17];全局自注意力让所有物体互相参考,避免物体穿透或悬浮等荒谬场景[17];局部交叉注意力在估算旋转时只关注物体本身,不受环境干扰[17];全局交叉注意力在估算位置和尺寸时紧盯整个场景的点云和图像[17];消融实验证明每个注意力模块对模型性能均有提升[17] - 自建大规模开放世界3D场景数据集:由于缺乏足够规模的开放世界3D场景数据集,团队基于Objaverse 3D物体数据集,自行构建了20万个合成场景数据集用于训练[19];每个场景放置2到5个物体,包含几何、位姿,以及20个不同相机视角下的RGB图像、分割图和深度图,并且完全开源[19] 性能表现与实验结果 - 在可视化和量化对比中,SceneMaker突破现有方案对室内等使用场景的限制,实现从任意开放世界图像到基于物体mesh的3D场景重建,且达到SOTA表现[21] - 在3D-Front数据集上,SceneMaker的CD-ST指标为0.0381,F-Score-S为0.6840,IoU-B为0.7658,均优于对比方案MIDI3D和PartCrafter[24] - 在Open-set场景下,SceneMaker的CD-SJ指标为0.0285,F-Score-S为0.6125,IoU-B为0.7549,同样表现卓越[24] - 在MIDI3D数据集上的量化对比中,SceneMaker的CD-SJ指标为0.051,F-Score-S为0.5642,CD-OJ为0.0963,F-Score-O为0.6544,IoU-B为0.671,优于包括PanoRecon、Total3D、DiffCAD在内的多个现有方案[25] 应用场景与产业价值 - 具身智能:能从真实场景图像中重建高精度、带位姿信息的3D场景,为机器人提供可交互的数字孪生环境,助力其完成路径规划、物体抓取、场景导航等任务,解决开放世界环境感知与建模的核心痛点[26] - 自动驾驶/无人机:能将真实道路、城市街区、园区环境的图像转化为高精度3D仿真场景,同时解决物体遮挡导致的模型失真问题,为自动驾驶仿真测试、无人机路径模拟提供高保真的虚拟训练环境[27] - 游戏工业建模:可实现街道、公园、野外等开放游戏场景的快速3D重建,并能精准还原小众道具的几何形态与空间位姿,帮助游戏厂商提升场景制作效率,丰富游戏内物体的多样性[28]