Workflow
突破SAM局限!中山大学X-SAM:统一框架横扫20+分割基准
自动驾驶之心·2025-08-12 18:37

核心观点 - X-SAM是由中山大学、鹏城实验室和美团团队提出的突破性框架,将分割范式从"分割任何事物"推向"任何分割",实现了多任务、多模态的统一分割能力 [3][4] - X-SAM在超过20个分割数据集、7大核心任务上全面超越现有模型,包括文本指令驱动的分割任务和跨图像场景的精准分割 [4] - X-SAM通过三大支柱创新(统一输入格式、双编码器架构、多阶段训练)解决了SAM的局限性,如任务单一性、模态割裂和多任务壁垒 [12][6] 技术架构 统一输入格式 - 设计统一输入规则,用<p></p>标记文本查询,<region>标签代表视觉提示(点、框、涂鸦等),使不同任务能被模型统一处理 [13][15] 双编码器架构 - 图像编码器(SigLIP2-so400m)提取全局特征,分割编码器(SAM-L)捕捉像素级细节,双投影器将视觉特征转换为与语言模型匹配的维度 [19] - 分割连接器通过补丁合并和扩展操作生成1/8、1/16、1/32三种尺度特征,支持不同大小物体的分割 [19][17] - 分割解码器基于Mask2Former架构,能一次性输出多个分割掩码,并通过LLM生成的<SEG>标签关联类别或描述 [20] 多阶段训练 - 分割器微调:在COCO全景分割数据集上训练分割编码器和解码器,使用分类损失、掩码损失和dice损失 [27] - 对齐预训练:在LLaVA-558K数据集上训练双投影器,使视觉特征与语言模型词嵌入空间对齐 [27] - 混合微调:混合多种任务数据集训练,采用数据集平衡重采样策略(参数t=0.1)解决数据集大小差异问题 [24][27] 性能表现 基准测试 - 在COCO全景分割中PQ达54.7,接近Mask2Former(57.8);在A150-OV数据集上AP达16.2,远超ODISE(14.4)和PSALM(9.0) [31] - Referring分割任务中,RefCOCO/+/g的cIoU分别达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和Sa2VA(81.6/76.2/78.7) [32] - 推理分割任务gIoU达56.6,超过LISA-7B(52.9);GCG分割mIoU达69.4,远超GLaMM(65.8) [32][33] 新任务VGD分割 - 在COCO-VGD数据集上,点/涂鸦/框/掩码提示的AP分别达47.9/48.7/49.5/49.7,远超PSALM(2.0-3.7) [26][35] - 支持跨图像VGD分割,用一张图的视觉提示在另一张图中分割同类对象 [26] 消融实验 - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2跃升至57.1 [37] - 双编码器组合使GCG分割mIoU达69.4,远超单编码器方案(Swin编码器为62.5) [38] - 多阶段训练中,跳过分割器微调会使COCO全景分割PQ降至45.2,完整训练提升至54.7 [39] - Mask2Former解码器比SAM原生解码器PQ提升9.2,加入多尺度特征后PQ再提升1.3 [41] 未来方向 - 计划与SAM2结合拓展至视频分割,将VGD分割延伸到视频领域实现"跨时空视觉定位" [43] - 需解决任务平衡难题(部分分割任务因对话数据干扰性能下降)和性能不均问题(某些细分任务略逊于专门优化模型) [46]