Workflow
3D场景理解
icon
搜索文档
SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
机器之心· 2025-09-07 16:21
技术突破与创新 - 推出首个在3D高斯点(3DGS)上原生运行的端到端大规模3D室内场景理解方法SceneSplat,突破现有方法依赖2D或文本模态的局限 [2] - 提出自监督学习方案,从未标记场景中解锁3D特征学习,支持视觉-语言预训练和自监督预训练两种模式 [2][12][14] - 开发高效语义标注系统,结合SAMv2分割、SigLIP2特征提取和Occam's LGS多视角特征融合技术,实现稳定的3D高斯-语言特征对生成 [8][10] 数据集构建 - 构建并发布首个针对室内场景的大规模3DGS数据集SceneSplat-7K,包含7916个场景,源自7个权威数据集(ScanNet、Matterport3D等) [2][6] - 数据集总计包含112.7亿个高斯点,单场景平均约142万个点,对应472万张RGB训练帧 [6][7] - 重建质量达到PSNR 29.64 dB、平均Depth-L1 0.035米,存储需求2.76TB,计算资源消耗等效NVIDIA L4 GPU运行3592小时(约150天) [6][7] 性能表现 - 在ScanNet200、Matterport3D和ScanNet++的零样本语义分割任务中达到SOTA效果,最高f-mIoU达28.4%(ScanNet++) [21][22] - 无监督预训练后在ScanNet20、ScanNet200和ScanNet++的语义分割任务中均达到SOTA,mIoU最高77.2%(ScanNet20) [23] - 支持开放词汇识别和物体属性查询,能有效处理训练数据中未出现的类别(如Robot Arm) [27][29] 应用与扩展 - 数据集已扩展至SceneSplat-49K,并在多数据集上完成系统化3DGS与语义结合的基准测试 [31] - 技术成果由国际顶尖研究团队(含INSAIT、苏黎世联邦理工等机构成员)联合开发,获CVPR、ICCV等顶级会议论文收录 [32][33][34] - 相关研究获得Google、华为等企业产学协同支持,并参与欧盟"AI工厂"计划(总额9000万欧元) [34][36]
特斯联全新研究成果聚焦3D场景理解,获IEEE T-PAMI收录
IPO早知道· 2025-05-13 09:55
研究成果核心特点 - 提出名为Laser的高效语言引导分割框架 为3D场景理解提供轻量化 高精度的开放词汇分割方案 [2] - 推动语言模型与神经辐射场融合的实用化进程 并被权威学术期刊IEEE T-PAMI(CCF-A,IF 23.6)收录 [2] - 训练时间仅需11分钟 相比传统方法所需的158分钟大幅缩短 [2] 自动驾驶与机器人导航应用 - 适用于需要实时语义解析的空间智能场景 如实时理解周围环境的3D结构与语义信息 [2] - 低秩注意力机制能精准识别道路边缘 车道线等细粒度特征 避免模糊边界导致的误判 [2] - 可快速构建3D语义地图以支持安全导航和决策 [2] 增强现实与虚拟现实应用 - 能够将虚拟物体精准叠加到真实场景中 确保在不同视角下与真实场景标注对齐 避免视觉穿帮 [3][4] - 能够区分相似颜色物体 如黑白键盘与黑色鼠标垫 以提升虚拟物体放置的合理性 [4] - 与3D高斯渲染技术相结合 可实现实时语义AR效果 [4] 城市规划与建筑建模应用 - 支持对罕见物体如古建筑装饰 特殊标牌进行开放词汇分割 丰富数据标注覆盖范围 [5] - 无需人工标注3D数据 通过多视图图像即可生成带语义的3D模型 辅助城市规划决策 [5]
无需大量标注也能理解3D!新研究登上ICLR 2025 Spotlight
量子位· 2025-03-07 15:12
核心技术突破 - 提出全新的多模态Few-shot 3D分割设定,首次融合文本、2D和3D信息,无需额外标注成本 [1][2][14] - 开发创新模型MM-FSS,通过跨模态特征融合显著提升模型在极少标注样本下对新类别的学习与泛化能力 [15][16][37] - 该方法在ICLR 2025被接收为Spotlight论文,显示其学术认可度 [6] 技术实现细节 - 模型引入Intermodal Feature Head和Unimodal Feature Head两个特征提取分支,分别学习与2D视觉特征对齐的3D点云特征和3D点云本身特征 [22][23] - 设计Multimodal Correlation Fusion和Multimodal Semantic Fusion模块,有效聚合视觉线索和语义信息,增强对新类概念的全面理解 [25][26][27][37] - 在测试阶段引入Test-time Adaptive Cross-modal Calibration,利用跨模态语义引导自适应修正预测结果,缓解训练偏差,实现更好泛化 [28][29][32] 性能表现 - 在两个标准FS-PCS数据集上的实验表明,MM-FSS在各类few-shot任务中均实现最佳性能 [34][35] - 在1-way 1-shot任务中平均性能达到52.09,相比基线最佳结果47.77提升4.3个百分点 [35] - 在2-way 5-shot任务中平均性能达到50.16,相比基线最佳结果41.49提升8.7个百分点,显示其强大泛化能力 [35] 行业应用与价值 - 精准的3D场景理解技术对人形机器人、VR/AR及自动驾驶汽车等领域至关重要 [3][7] - 传统全监督模型受限于预定义类别,识别新类别需重新标注大量数据并训练模型,过程耗时昂贵 [8][9] - 该技术极大降低了新类适应的开销,使3D场景理解模型不再局限于训练集中的有限类别,对广泛应用场景有重要价值 [9][16]