首个实例理解3D重建模型！NTU&阶越提出基于实例解耦的3D重建模型，助理场景理解

核心观点 - 提出IGGT模型，首次将3D空间重建与实例级上下文理解融合于一个端到端的统一Transformer框架中，解决了传统方法将两者割裂处理的问题 [1] - 首创“实例接地的场景理解”范式，通过生成实例掩码作为桥梁，实现与任意视觉语言模型和大语言模型的即插即用式集成，突破了以往模型与特定VLM锁死的限制 [2] - 该模型是首个能同时支持空间跟踪、开放词汇分割和场景问答的统一模型，在多项任务指标上大幅领先已有方法 [2][19] 技术架构与创新 - 统一Transformer框架：模型使用预训练的DINOv2提取图像块级Token，通过24个注意力模块进行视图内自注意力和全局视图交叉注意力，编码为强大的统一Token表示 [14] - 双解码头设计：统一Token被送入两个并行解码器——几何头负责预测相机参数、深度图和点图，实例头采用DPT-like架构解码出实例特征 [12][17] - 跨模态融合：设计跨模态融合块，通过窗口滑动交叉注意力将几何头的空间结构特征嵌入到实例表示中，增强实例特征的空间感知能力 [17] - 3D一致性对比监督：设计多视角对比损失，在特征空间中拉近同一3D实例在不同视角的像素特征，推开不同实例的特征，从而仅从2D输入学到3D一致的实例特征 [15] 数据集构建 - InsScene-15K数据集：构建包含15K个场景、2亿张图像的大规模数据集，并通过新颖数据管线标注高质量、3D一致的实例级掩码 [2][5] - 合成数据处理：在模拟环境中直接生成RGB图像、深度图、相机位姿和物体级分割掩码，由于掩码完美准确而无需后处理 [8] - 真实世界视频处理：使用定制化SAM2视频密集预测管线，通过初始掩码提议、时间上前向传播、迭代添加关键帧和双向传播，确保视频序列高度时间一致性 [9] - 真实世界RGBD处理：通过掩码优化流程，将SAM2生成的精细掩码与投影的粗糙GT掩码对齐，为精细掩码分配正确的多视图一致ID，提升2D掩码质量 [10] 应用能力与性能 - 空间跟踪能力：IGGT的跟踪IOU和成功率分别达到69.41%和98.66%，是唯一能够成功跟踪物体消失又重新出现的模型 [19] - 开放词汇分割：在2D开放词汇分割任务上达到60.46% mIoU和81.84% mAcc，在3D任务上达到39.68% mIoU，大幅领先对比方法 [19] - 场景问答定位：利用实例掩码构建视觉提示，接入大型多模态模型实现针对场景中特定物体的复杂问答任务 [23][30] - 多任务支持：模型同时支持实例空间跟踪、开放词汇语义分割和QA场景定位三大类应用 [23]