Workflow
X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
机器之心·2025-08-19 14:33

核心观点 - X-SAM是首个统一的分割多模态大语言模型,将分割范式从「分割万物」扩展到「任意分割」,实现了像素级视觉理解能力的突破 [4] - 通过创新的视觉定位分割(VGS)任务和统一架构设计,X-SAM在20+数据集上达到最先进性能,覆盖7种分割任务 [4][19] - 模型采用三阶段渐进式训练策略和数据集平衡重采样技术,显著提升少样本数据集的性能 [16][17] 背景与动机 - Segment Anything Model (SAM)依赖单一视觉提示输入,多模态大语言模型(MLLMs)无法处理像素级任务,限制了通用模型发展 [4] - X-SAM通过赋予MLLMs像素级理解能力,解决了传统模型在开放场景视觉感知中的根本性限制 [4] 方法设计 架构设计 - 采用双编码器设计:SigLIP2-so400m提取全局特征,SAM-L提取细粒度特征,通过像素重排和MLP投影实现特征融合 [14] - 分割连接器提供多尺度信息(1/32、1/16、1/8尺度),Mask2Former解码器替换SAM原始解码器 [12][15] - 输入支持文本查询(通用/指代/推理分割)和视觉查询(点/涂鸦/边界框),输出采用标记统一表示 [7][8][13] 训练策略 - 三阶段训练:1)分割器微调(COCO-Panoptic数据集) 2)对齐预训练(LLaVA-558K数据集) 3)混合微调(多数据集协同) [16] - 数据集平衡重采样策略:通过超参数t控制过采样比例,改善少样本数据集(0.2K样本)性能 [17] 实验结果 性能对比 - 指代分割任务:RefCOCO/+/g测试集达到85.1/78.0/83.8,超越GLaMM(79.5/72.6/74.2)和PSALM(83.6/72.9/73.8) [23] - 对话生成分割:mIoU指标达69.4(Val)/69.0(Test),显著优于GLaMM-7BT(65.8/64.6) [23] - 视觉定位分割:点提示AP50达72.5,较PSALM(3.3)提升20倍 [23] 多模态能力 - 图文理解任务:SEED-Bench(69.3)、POPE(89.3)、AI2D(62.6)分数全面领先LLaVA-1.5等基线模型 [23] 未来方向 - 视频领域扩展:与SAM2集成实现图像/视频统一分割,引入时序信息构建视频分割新任务 [27] - 技术应用前景:为通用视觉理解系统奠定基础,开辟开放场景感知研究新方向 [27]