在线3D实例分割
搜索文档
NeurIPS'25! AutoSeg3D:在线完成任意3D分割,只需1张4090
具身智能之心· 2025-12-12 09:22
文章核心观点 - 提出了一种名为AutoSeg3D的新型在线3D实例分割框架,其核心创新在于将任务重构为持续的实例跟踪问题,通过引入长时记忆、短时记忆和空间一致性学习三个协同模块,有效解决了现有视觉基础模型辅助方法中的碎片化、过分割和跨帧身份不一致问题,在保持实时效率的同时显著提升了分割精度,并已在多家公司进行技术转化落地 [2][3][7][8] 前沿与背景 - 当前具身智能和自动驾驶领域的研究常需大规模算力,但本文介绍的具身场景点云实例分割方向是一个资源需求相对较低且有真实落地潜力的研究方向,仅用1张NVIDIA 4090显卡即可完成顶会论文工作 [2] - 该技术方向并非仅为“水论文”,其研究成果已开始在两家公司进行技术转化并切实落地 [2] - 在线、实时且细粒度的3D实例分割是具身智能感知体系的关键底座,对机器人在动态复杂环境中的持续理解与交互至关重要 [4] - 传统离线3D实例分割方法存在延迟高、内存压力大的问题,而现有的在线方法虽借助SAM等视觉基础模型提升了效率,但缺乏对实例级时序表征的显式维护,导致碎片化与过分割问题在跨帧中被放大,仅依赖后处理无法根本解决 [4] 方法创新 - **任务重构**:将在线3D实例分割从传统的逐帧分割再拼接范式,重新表述为一个持续的实例跟踪问题,强调为每个实例维护可持续演化的表征 [7] - **长时记忆模块**:维护一个有界的轨迹库,结合置信度门控的亲和矩阵与匈牙利匹配策略,以近乎恒定的计算开销实现长时遮挡后的身份恢复 [3][8][12] - **短时记忆模块**:通过距离感知的跨帧注意力机制,在相邻帧间快速更新和增强实例嵌入,注入即时上下文并抑制背景噪声 [3][8][13] - **空间一致性学习**:在训练阶段采用一对多碎片监督增强模型对低质量掩码的鲁棒性;在推理阶段联合2D外观和3D几何一致性对高亲和度碎片进行自适应合并,从源头缓解过分割 [3][8][10][13] 实验效果 - **在ScanNet200数据集上的性能**:当使用SAM作为2D分割前端时,AutoSeg3D的AP达到45.5,较当前最新工作ESAM的42.2提升了3.3个点;AP50达到66.7,提升了3.0个点;AP25达到81.0,提升了1.4个点 [14][15] - **使用轻量前端FastSAM时**:AutoSeg3D的AP达到46.2,较ESAM-E的43.4提升了2.8个点;AP50达到67.9,提升了2.5个点;AP25达到81.7,提升了0.8个点,同时保持了10.1 FPS的实时吞吐率 [14][15] - **在ScanNet数据集上的跨数据集评测**:AutoSeg3D的AP达到43.4,较ESAM的41.6提升了1.8个点;AP50达到62.5,提升了2.9个点;AP25达到77.4,提升了2.2个点 [15][16] - **在SceneNN数据集上的跨数据集评测**:AutoSeg3D的AP达到33.1,较ESAM的30.3提升了2.8个点;AP50达到52.6,提升了5.0个点 [16] - **在3RScan数据集上的跨数据集评测**:以ScanNet200为训练源时,AutoSeg3D的AP达到16.0,较ESAM的14.1提升了1.9个点;使用FastSAM时,AP达到16.8,较ESAM-E的13.9提升了2.9个点 [17] 结论与意义 - 提出的以跟踪为中心的轻量化框架,在多个基准数据集上实现了新的精度水平,同时保持了实时效率,证明了其有效性和泛化能力 [18] - 该工作为在线3D实例分割提供了一个新的研究视角和有效的解决方案,支撑具身智能在真实环境中的落地应用 [3][4][18]