实例解耦
搜索文档
首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
36氪· 2025-10-31 16:28
技术突破与核心创新 - 提出IGGT,一个创新的端到端大型统一Transformer,首次将3D空间重建与实例级上下文理解融为一体,解决了传统方法将两者割裂处理导致的错误累积和泛化能力差的问题 [1] - 首创“实例接地的场景理解”范式,使模型不与任何特定视觉语言模型绑定,而是生成实例掩码作为桥梁,实现与任意VLMs和LMMs的即插即用式集成 [3] - 该统一表示是首个能同时支持空间跟踪、开放词汇分割和场景问答的统一模型,极大地扩展了下游能力 [4] 模型架构与关键技术 - IGGT架构由三部分构成:使用预训练DINOv2提取图像块级Token的统一Transformer、进行intra-view self-attention和global-view cross-attention的24个注意力模块、以及并行的几何头与实例头双解码头 [11][13] - 设计跨模态融合块,通过窗口滑动交叉注意力将几何头的空间结构特征嵌入到实例表示中,显著增强实例特征的空间感知能力 [18] - 采用多视角对比损失Lmvc,在特征空间中拉近不同视角但属同一3D实例的像素特征,同时推开不同实例的特征,使模型从2D输入学到3D一致实例特征 [14] 数据集构建 - 构建全新大规模数据集InsScene-15K,包含15,000个场景、2亿张图像,以及通过新颖数据管线标注的高质量、3D一致的实例级掩码 [2] - 数据集整合三种来源数据:合成数据直接使用模拟生成的完美准确掩码;真实世界视频数据通过定制化SAM2视频密集预测管线确保时间一致性;真实世界RGBD数据通过掩码优化流程提升2D掩码质量并保持3D ID一致性 [8][9][10] 性能表现与应用 - 在实例3D跟踪任务上,IGGT的跟踪IOU和成功率分别达到69.41%和98.66%,是唯一能成功跟踪物体消失又重新出现的模型 [16] - 支持三大应用:实例空间跟踪可在多视角图像中密集跟踪分割特定对象实例;开放词汇语义分割可利用实例掩码作为提示接入任意VLM实现类别分配;QA场景定位可与LMM交互执行以对象为中心的复杂问答任务 [19] - 在2D/3D开放词汇分割任务上,得益于实例接地范式特性,可无缝接入最新视觉语言模型提升查询性能 [22]
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
量子位· 2025-10-31 12:09
核心观点 - 提出IGGT模型,首次将3D空间重建与实例级上下文理解融合于一个端到端的统一Transformer框架中,解决了传统方法将两者割裂处理的问题 [1] - 首创“实例接地的场景理解”范式,通过生成实例掩码作为桥梁,实现与任意视觉语言模型和大语言模型的即插即用式集成,突破了以往模型与特定VLM锁死的限制 [2] - 该模型是首个能同时支持空间跟踪、开放词汇分割和场景问答的统一模型,在多项任务指标上大幅领先已有方法 [2][19] 技术架构与创新 - **统一Transformer框架**:模型使用预训练的DINOv2提取图像块级Token,通过24个注意力模块进行视图内自注意力和全局视图交叉注意力,编码为强大的统一Token表示 [14] - **双解码头设计**:统一Token被送入两个并行解码器——几何头负责预测相机参数、深度图和点图,实例头采用DPT-like架构解码出实例特征 [12][17] - **跨模态融合**:设计跨模态融合块,通过窗口滑动交叉注意力将几何头的空间结构特征嵌入到实例表示中,增强实例特征的空间感知能力 [17] - **3D一致性对比监督**:设计多视角对比损失,在特征空间中拉近同一3D实例在不同视角的像素特征,推开不同实例的特征,从而仅从2D输入学到3D一致的实例特征 [15] 数据集构建 - **InsScene-15K数据集**:构建包含15K个场景、2亿张图像的大规模数据集,并通过新颖数据管线标注高质量、3D一致的实例级掩码 [2][5] - **合成数据处理**:在模拟环境中直接生成RGB图像、深度图、相机位姿和物体级分割掩码,由于掩码完美准确而无需后处理 [8] - **真实世界视频处理**:使用定制化SAM2视频密集预测管线,通过初始掩码提议、时间上前向传播、迭代添加关键帧和双向传播,确保视频序列高度时间一致性 [9] - **真实世界RGBD处理**:通过掩码优化流程,将SAM2生成的精细掩码与投影的粗糙GT掩码对齐,为精细掩码分配正确的多视图一致ID,提升2D掩码质量 [10] 应用能力与性能 - **空间跟踪能力**:IGGT的跟踪IOU和成功率分别达到69.41%和98.66%,是唯一能够成功跟踪物体消失又重新出现的模型 [19] - **开放词汇分割**:在2D开放词汇分割任务上达到60.46% mIoU和81.84% mAcc,在3D任务上达到39.68% mIoU,大幅领先对比方法 [19] - **场景问答定位**:利用实例掩码构建视觉提示,接入大型多模态模型实现针对场景中特定物体的复杂问答任务 [23][30] - **多任务支持**:模型同时支持实例空间跟踪、开放词汇语义分割和QA场景定位三大类应用 [23]