3D场景理解 - 财报，业绩电话会，研报，新闻

3D场景理解

搜索文档

SceneSplat: 基于3DGS的场景理解和视觉语言预训练，让3D高斯「听懂人话」的一跃

机器之心· 2025-09-07 16:21

技术突破与创新 - 推出首个在3D高斯点（3DGS）上原生运行的端到端大规模3D室内场景理解方法SceneSplat，突破现有方法依赖2D或文本模态的局限 [2] - 提出自监督学习方案，从未标记场景中解锁3D特征学习，支持视觉-语言预训练和自监督预训练两种模式 [2][12][14] - 开发高效语义标注系统，结合SAMv2分割、SigLIP2特征提取和Occam's LGS多视角特征融合技术，实现稳定的3D高斯-语言特征对生成 [8][10] 数据集构建 - 构建并发布首个针对室内场景的大规模3DGS数据集SceneSplat-7K，包含7916个场景，源自7个权威数据集（ScanNet、Matterport3D等） [2][6] - 数据集总计包含112.7亿个高斯点，单场景平均约142万个点，对应472万张RGB训练帧 [6][7] - 重建质量达到PSNR 29.64 dB、平均Depth-L1 0.035米，存储需求2.76TB，计算资源消耗等效NVIDIA L4 GPU运行3592小时（约150天） [6][7] 性能表现 - 在ScanNet200、Matterport3D和ScanNet++的零样本语义分割任务中达到SOTA效果，最高f-mIoU达28.4%（ScanNet++） [21][22] - 无监督预训练后在ScanNet20、ScanNet200和ScanNet++的语义分割任务中均达到SOTA，mIoU最高77.2%（ScanNet20） [23] - 支持开放词汇识别和物体属性查询，能有效处理训练数据中未出现的类别（如Robot Arm） [27][29] 应用与扩展 - 数据集已扩展至SceneSplat-49K，并在多数据集上完成系统化3DGS与语义结合的基准测试 [31] - 技术成果由国际顶尖研究团队（含INSAIT、苏黎世联邦理工等机构成员）联合开发，获CVPR、ICCV等顶级会议论文收录 [32][33][34] - 相关研究获得Google、华为等企业产学协同支持，并参与欧盟"AI工厂"计划（总额9000万欧元） [34][36]

特斯联全新研究成果聚焦3D场景理解，获IEEE T-PAMI收录

IPO早知道· 2025-05-13 09:55

尤其适用于机器人导航、自动驾驶等需要实时语义解析的空间智能场景。本文为IPO早知道原创作者｜ Stone Jin 微信公众号｜ipozaozhidao 据 IPO早知道消息，特斯联首席科学家、特斯联国际总裁邵岭博士及其合作团队日前发布最新研究成果，提出了一种名为 Laser的高效语言引导分割框架，为3D场景理解提供了轻量化、高精度的开放词汇分割方案，推动了语言模型与神经辐射场融合的实用化进程。该框架尤其适用于机器人导航、自动驾驶等需要实时语义解析的空间智能场景，现已被人工智能领域权威学术期刊 IEEE T- PAMI （CCF-A，IF 23.6）收录。在城市规划与建筑建模领域：在城市数字化建模中，需对建筑物、植被、公共设施进行语义标注，辅助规划决策。该研究成果支持对罕见物体（如古建筑装饰、特殊标牌）的开放词汇分割，丰富数据标注的覆盖范围；此外，基于 Laser, 无需人工标注3D数据，通过多视图图像即可生成带语义的3D模型。本文由公众号IPO早知道（ID：ipozaozhidao）原创撰写，如需转载请联系C叔↓↓↓ 这一研究成果在多个现实场景中具备重要的应用价值，特别是在需 ...

3D场景理解

Artificial Intelligence

Laser

3D场景理解

Artificial Intelligence

Laser

无需大量标注也能理解3D！新研究登上ICLR 2025 Spotlight

量子位· 2025-03-07 15:12

3D场景理解在具身智能、VR/AR等领域至关重要，帮助设备准确感知和解读三维世界。人形机器人、VR/AR，以及自动驾驶汽车，都依赖于对3D场景的精确理解。然而，这种精准的3D理解往往需要大量详细标注的3D数据，极大推高了时间成本和资源消耗。 Few-shot学习是一种有效的解决思路，但当前研究都局限于单模态点云数据，忽略了多模态信息的潜在价值。对此，这项新研究填补了这一空白，文章已被ICLR 2025接收为Spotlight论文。整合多模态信息，理解3D场景只要极少量的标注样本，就能让模型精准分割3D场景？来自哥本哈根大学、苏黎世联邦理工学院等机构的研究人员，提出了一个全新的多模态Few-shot 3D分割设定和创新方法。无需额外标注成本，该方法就可以融合文本、2D和3D信息，让模型迅速掌握新类别。 △ 3D Few-shot分割结果示例小q 投稿量子位 | 公众号 QbitAI 然而，传统全监督模型虽在特定类别上表现出色，但其能力局限于预定义类别。每当需要识别新类别时，必须重新收集并标注大量3D数据以及重新训练模型，这一过程既耗时又昂贵，极大地制约了模型的应用广度。 3D Few-sh ...

3D场景理解

Few-shot学习

多模态信息

MultiModal Few-Shot SegNet (MM-FSS)

3D场景理解

Few-shot学习

多模态信息

MultiModal Few-Shot SegNet (MM-FSS)