文章核心观点 - 研究团队针对具身智能体在真实稀疏视角下难以进行3D指代分割的难题,提出了全新的多视图3D指代表达分割任务及MVGGT模型,通过几何与语言双分支架构及创新的PVSO优化策略,实现了在仅有稀疏多视角RGB图像输入下的高效3D场景理解与精确目标分割 [4][10][30] 现有技术瓶颈与任务定义 - 现有三维指代表达分割方法基于理想化假设,依赖密集、完整且可靠的点云输入,与真实世界智能体仅能通过少量随机RGB图片感知的稀疏、不一致情况不符 [8][9] - 研究团队定义了更贴近实际应用的新任务——多视图3D指代分割,要求模型在没有稠密点云输入的情况下,直接利用稀疏的多视角RGB视图和文本指令,联合重建场景并分割被指代对象 [10] MVGGT模型架构 - MVGGT采用端到端的双分支架构,包括一个参数冻结的几何重建分支和一个可训练的多模态分支 [11][13] - 几何重建分支以预训练的几何模型为基础,提供稳定的三维几何先验信息,无需从稀疏图像中重新学习3D几何 [13][14] - 多模态分支接收几何特征,并利用交叉注意力机制将语言指令注入视觉特征,用文本语义信息辅助不完整画面的视觉判断与空间推断 [15][17] 核心优化策略PVSO - 稀疏多视图学习面临前景梯度稀释的核心优化障碍,即目标实例由极少数分散点表示,前景梯度信号微弱易被背景淹没,使模型难以收敛 [18][19][20] - 研究团队引入了逐视图无目标抑制优化方法,通过将3D预测投影回2D图像空间来放大目标区域的梯度信号,并加权抑制大量无目标视图产生的误导性梯度,防止训练偏差 [22] 实验结果与基准 - 研究团队构建了首个为多视图三维指代表达分割定义的基准测试集MVRefer,该基准基于ScanRefer和ScanNet数据集构建,模拟在场景中随机采集8个稀疏视角的情况 [23][24] - 实验结果显示,MVGGT在各项指标上均显著优于现有基线方法,在目标像素占比极低的困难模式下,MVGGT依然保持了较高的分割精度,展现了极强的鲁棒性 [25] - 具体数据表明,在困难模式下,MVGGT的全局视图精度达到24.4%,远高于Two-stage方法的8.1%和2D-Lift方法的6.4% [26] - 可视化结果证明,在深度噪声严重或遮挡复杂的场景中,MVGGT能借助多模态语义精准区分几何特征相似的目标,并利用上下文信息实现精准定位 [27]
告别「上帝视角」,机器人仅凭几张图精准锁定3D目标,新基准SOTA
量子位·2026-01-23 13:03