多样化大规模数据集！SceneSplat++：首个基于3DGS的综合基准~

三维高斯溅射技术发展 - 三维高斯溅射（3DGS）成为最理想的三维表示方法，因其能联合编码场景的几何、外观和理解属性[2] - 视觉-语言推理是三维场景理解最具前景的方向，将视觉/几何属性与语言概念连接[2] - 现有方法分为三类：基于梯度的单场景优化、免优化的特征聚合、泛化方法[3] 评估基准创新 - 提出SceneSplat-Bench基准，包含1060个场景和325个语义类别，首次在三维空间评估性能[3] - 现有评估存在三大局限：样本量少（仅9-21个场景）、依赖训练视点、二维评估为主[4] - 基准测试显示泛化方法SceneSplat在f-mIoU指标上最高达0.354（ScanNet20）和0.338（Matterport3D）[24] 数据集突破 - 发布SceneSplat-49K数据集，包含46K个3DGS场景，总高斯数达29.24B，覆盖室内外环境[9][10] - 数据集平均质量达27.8dB PSNR和0.90 SSIM，几何误差仅0.061米，存储量8.36TB[10][12] - 包含12K个带视觉语言嵌入的场景，采用动态加权机制融合全局/局部特征[19] 技术性能比较 - 泛化方法SceneSplat运行时仅0.24分钟/场景，显著优于优化方法（76-621分钟）[5][24] - 免优化方法在效率（4-5.6分钟）和准确率上均优于优化方法，如Gradient-Weighted 3DGS在ScanNet20达0.418 f-mIoU[5][24] - 数据规模扩大使ScanNet++性能提升69%（f-mIoU从0.168到0.284）[28] 跨领域应用 - 室内训练模型可迁移至室外场景，零样本性能达0.263 mIoU，但特定领域数据仍关键[29] - 城市尺度数据集HoliCity包含6,300个伦敦场景，覆盖20平方公里，支持室外评估[17][22] - 合成数据Aria ASE贡献25K程序化室内场景，采用鱼眼图像校正技术[16]