场景理解
搜索文档
首个实例理解3D重建模型,NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
36氪· 2025-10-31 16:28
技术突破与核心创新 - 提出IGGT,一个创新的端到端大型统一Transformer,首次将3D空间重建与实例级上下文理解融为一体,解决了传统方法将两者割裂处理导致的错误累积和泛化能力差的问题 [1] - 首创“实例接地的场景理解”范式,使模型不与任何特定视觉语言模型绑定,而是生成实例掩码作为桥梁,实现与任意VLMs和LMMs的即插即用式集成 [3] - 该统一表示是首个能同时支持空间跟踪、开放词汇分割和场景问答的统一模型,极大地扩展了下游能力 [4] 模型架构与关键技术 - IGGT架构由三部分构成:使用预训练DINOv2提取图像块级Token的统一Transformer、进行intra-view self-attention和global-view cross-attention的24个注意力模块、以及并行的几何头与实例头双解码头 [11][13] - 设计跨模态融合块,通过窗口滑动交叉注意力将几何头的空间结构特征嵌入到实例表示中,显著增强实例特征的空间感知能力 [18] - 采用多视角对比损失Lmvc,在特征空间中拉近不同视角但属同一3D实例的像素特征,同时推开不同实例的特征,使模型从2D输入学到3D一致实例特征 [14] 数据集构建 - 构建全新大规模数据集InsScene-15K,包含15,000个场景、2亿张图像,以及通过新颖数据管线标注的高质量、3D一致的实例级掩码 [2] - 数据集整合三种来源数据:合成数据直接使用模拟生成的完美准确掩码;真实世界视频数据通过定制化SAM2视频密集预测管线确保时间一致性;真实世界RGBD数据通过掩码优化流程提升2D掩码质量并保持3D ID一致性 [8][9][10] 性能表现与应用 - 在实例3D跟踪任务上,IGGT的跟踪IOU和成功率分别达到69.41%和98.66%,是唯一能成功跟踪物体消失又重新出现的模型 [16] - 支持三大应用:实例空间跟踪可在多视角图像中密集跟踪分割特定对象实例;开放词汇语义分割可利用实例掩码作为提示接入任意VLM实现类别分配;QA场景定位可与LMM交互执行以对象为中心的复杂问答任务 [19] - 在2D/3D开放词汇分割任务上,得益于实例接地范式特性,可无缝接入最新视觉语言模型提升查询性能 [22]
首个实例理解3D重建模型!NTU&阶越提出基于实例解耦的3D重建模型,助理场景理解
量子位· 2025-10-31 12:09
核心观点 - 提出IGGT模型,首次将3D空间重建与实例级上下文理解融合于一个端到端的统一Transformer框架中,解决了传统方法将两者割裂处理的问题 [1] - 首创“实例接地的场景理解”范式,通过生成实例掩码作为桥梁,实现与任意视觉语言模型和大语言模型的即插即用式集成,突破了以往模型与特定VLM锁死的限制 [2] - 该模型是首个能同时支持空间跟踪、开放词汇分割和场景问答的统一模型,在多项任务指标上大幅领先已有方法 [2][19] 技术架构与创新 - **统一Transformer框架**:模型使用预训练的DINOv2提取图像块级Token,通过24个注意力模块进行视图内自注意力和全局视图交叉注意力,编码为强大的统一Token表示 [14] - **双解码头设计**:统一Token被送入两个并行解码器——几何头负责预测相机参数、深度图和点图,实例头采用DPT-like架构解码出实例特征 [12][17] - **跨模态融合**:设计跨模态融合块,通过窗口滑动交叉注意力将几何头的空间结构特征嵌入到实例表示中,增强实例特征的空间感知能力 [17] - **3D一致性对比监督**:设计多视角对比损失,在特征空间中拉近同一3D实例在不同视角的像素特征,推开不同实例的特征,从而仅从2D输入学到3D一致的实例特征 [15] 数据集构建 - **InsScene-15K数据集**:构建包含15K个场景、2亿张图像的大规模数据集,并通过新颖数据管线标注高质量、3D一致的实例级掩码 [2][5] - **合成数据处理**:在模拟环境中直接生成RGB图像、深度图、相机位姿和物体级分割掩码,由于掩码完美准确而无需后处理 [8] - **真实世界视频处理**:使用定制化SAM2视频密集预测管线,通过初始掩码提议、时间上前向传播、迭代添加关键帧和双向传播,确保视频序列高度时间一致性 [9] - **真实世界RGBD处理**:通过掩码优化流程,将SAM2生成的精细掩码与投影的粗糙GT掩码对齐,为精细掩码分配正确的多视图一致ID,提升2D掩码质量 [10] 应用能力与性能 - **空间跟踪能力**:IGGT的跟踪IOU和成功率分别达到69.41%和98.66%,是唯一能够成功跟踪物体消失又重新出现的模型 [19] - **开放词汇分割**:在2D开放词汇分割任务上达到60.46% mIoU和81.84% mAcc,在3D任务上达到39.68% mIoU,大幅领先对比方法 [19] - **场景问答定位**:利用实例掩码构建视觉提示,接入大型多模态模型实现针对场景中特定物体的复杂问答任务 [23][30] - **多任务支持**:模型同时支持实例空间跟踪、开放词汇语义分割和QA场景定位三大类应用 [23]
刚刚,UCLA周博磊也加入了一家机器人公司
具身智能之心· 2025-10-16 08:03
公司动态与战略 - 加州大学洛杉矶分校副教授周博磊正式加入机器人初创公司Coco Robotics,专注于解决人行道自动驾驶难题 [2] - Coco Robotics联合创始人兼CEO Zach Rash宣布成立Physical AI Lab,并由周博磊担任首席AI科学家 [3] - Coco Robotics成立于2020年,是一家专注于“最后一公里”配送的机器人初创公司,早期依赖远程操作员协助机器人规避障碍 [4] - 公司成立Physical AI Lab旨在深入挖掘其机器人车队在真实世界中采集的大量运行数据,以推进自动化研发 [4][5] - 公司目标为实现机器人在“最后一公里”配送中的完全自动驾驶,从而降低整体配送成本 [5] - 公司已在最复杂的城市环境中积累了数百万英里的数据,数据规模已达到可加速Physical AI研究的临界点 [7] - Physical AI Lab是独立于Coco Robotics与OpenAI合作关系的独立研究项目 [8] - 公司计划将实验室的研究成果用于提升自身自动化水平与运行效率,并应用于其机器人所依赖的本地模型,暂无出售数据给同行的打算 [9] - 公司计划在适当情况下向运营城市分享研究成果,以协助改善道路障碍与基础设施 [9] 核心人物背景 - 周博磊本科毕业于上海交通大学,硕士毕业于香港中文大学,并于2018年在麻省理工学院计算机科学与人工智能实验室获得博士学位 [12] - 其职业生涯包括曾任香港中文大学助理教授,现任UCLA计算机科学系副教授并兼任计算医学系教职,是UCLA周实验室负责人 [12] - 研究方向为机器感知和智能决策,重点是通过学习可解释、结构化的表征,使机器能够在复杂环境中感知、推理和行动 [14] - 在人工智能顶级会议和期刊发表百余篇学术论文,总引用数超过6万次,h-index为78,i10-index为137 [15] - 其一篇一作论文《Learning deep features for discriminative localization》引用接近13929次 [15] 技术专长与贡献 - 周博磊在计算机视觉和机器人领域的研究聚焦于小型出行设备,与Coco Robotics专注于人行道自动驾驶的定位高度契合 [7] - 其核心贡献之一是提出类别激活映射技术,能够可视化卷积神经网络在进行图像分类时所关注的具体区域,对可解释性人工智能领域影响深远 [16] - 在CAM基础上进一步提出网络剖析研究方法,能自动识别和量化神经网络中单个神经元所代表的语义概念 [19] - 领导创建了Places数据库,一个包含超过1000万张已标注场景照片的资源库,为场景识别任务训练强大的深度卷积神经网络树立了行业基准 [21] - 参与构建了用于场景解析的ADE20K数据集,提供对场景、物体及其部件的像素级标注,对机器人导航等应用至关重要 [23]