SceneSplat

搜索文档
SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
机器之心· 2025-09-07 16:21
技术突破与创新 - 推出首个在3D高斯点(3DGS)上原生运行的端到端大规模3D室内场景理解方法SceneSplat,突破现有方法依赖2D或文本模态的局限 [2] - 提出自监督学习方案,从未标记场景中解锁3D特征学习,支持视觉-语言预训练和自监督预训练两种模式 [2][12][14] - 开发高效语义标注系统,结合SAMv2分割、SigLIP2特征提取和Occam's LGS多视角特征融合技术,实现稳定的3D高斯-语言特征对生成 [8][10] 数据集构建 - 构建并发布首个针对室内场景的大规模3DGS数据集SceneSplat-7K,包含7916个场景,源自7个权威数据集(ScanNet、Matterport3D等) [2][6] - 数据集总计包含112.7亿个高斯点,单场景平均约142万个点,对应472万张RGB训练帧 [6][7] - 重建质量达到PSNR 29.64 dB、平均Depth-L1 0.035米,存储需求2.76TB,计算资源消耗等效NVIDIA L4 GPU运行3592小时(约150天) [6][7] 性能表现 - 在ScanNet200、Matterport3D和ScanNet++的零样本语义分割任务中达到SOTA效果,最高f-mIoU达28.4%(ScanNet++) [21][22] - 无监督预训练后在ScanNet20、ScanNet200和ScanNet++的语义分割任务中均达到SOTA,mIoU最高77.2%(ScanNet20) [23] - 支持开放词汇识别和物体属性查询,能有效处理训练数据中未出现的类别(如Robot Arm) [27][29] 应用与扩展 - 数据集已扩展至SceneSplat-49K,并在多数据集上完成系统化3DGS与语义结合的基准测试 [31] - 技术成果由国际顶尖研究团队(含INSAIT、苏黎世联邦理工等机构成员)联合开发,获CVPR、ICCV等顶级会议论文收录 [32][33][34] - 相关研究获得Google、华为等企业产学协同支持,并参与欧盟"AI工厂"计划(总额9000万欧元) [34][36]