核心观点 - X-SAM是首个统一的分割多模态大语言模型,将分割范式从「分割万物」扩展到「任意分割」,实现了像素级视觉理解能力的突破 [4] - 通过创新的视觉定位分割(VGS)任务和统一架构设计,X-SAM在20+数据集上达到最先进性能,覆盖7种分割任务 [4][19] - 模型采用三阶段渐进式训练策略和数据集平衡重采样技术,显著提升少样本数据集的性能 [16][17] 背景与动机 - Segment Anything Model (SAM)依赖单一视觉提示输入,多模态大语言模型(MLLMs)无法处理像素级任务,限制了通用模型发展 [4] - X-SAM通过赋予MLLMs像素级理解能力,解决了传统模型在开放场景视觉感知中的根本性限制 [4] 方法设计 架构设计 - 采用双编码器设计:SigLIP2-so400m提取全局特征,SAM-L提取细粒度特征,通过像素重排和MLP投影实现特征融合 [14] - 分割连接器提供多尺度信息(1/32、1/16、1/8尺度),Mask2Former解码器替换SAM原始解码器 [12][15] - 输入支持文本查询(通用/指代/推理分割)和视觉查询(点/涂鸦/边界框),输出采用
X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
机器之心·2025-08-19 14:33