突破SAM局限！中山大学X-SAM：统一框架横扫20+分割基准

核心观点 - X-SAM是由中山大学、鹏城实验室和美团团队提出的突破性框架，将分割范式从"分割任何事物"推向"任何分割"，实现了多任务、多模态的统一分割能力 [3][4] - X-SAM在超过20个分割数据集、7大核心任务上全面超越现有模型，包括文本指令驱动的分割任务和跨图像场景的精准分割 [4] - X-SAM通过三大支柱创新（统一输入格式、双编码器架构、多阶段训练）解决了SAM的局限性，如任务单一性、模态割裂和多任务壁垒 [12][6] 技术架构统一输入格式 - 设计统一输入规则，用<p>和</p>标记文本查询，<region>标签代表视觉提示（点、框、涂鸦等），使不同任务能被模型统一处理 [13][15] 双编码器架构 - 图像编码器（SigLIP2-so400m）提取全局特征，分割编码器（SAM-L）捕捉像素级细节，双投影器将视觉特征转换为与语言模型匹配的维度 [19] - 分割连接器通过补丁合并和扩展操作生成1/8、1/16、1/32三种尺度特征，支持不同大小物体的分割 [19][17] - 分割解码器基于Mask2Former架构，能一次性输出多个分割掩码，并通过LLM生成的<SEG>标签关联类别或描述 [20] 多阶段训练 - 分割器微调：在COCO全景分割数据集上训练分割编码器和解码器，使用分类损失、掩码损失和dice损失 [27] - 对齐预训练：在LLaVA-558K数据集上训练双投影器，使视觉特征与语言模型词嵌入空间对齐 [27] - 混合微调：混合多种任务数据集训练，采用数据集平衡重采样策略（参数t=0.1）解决数据集大小差异问题 [24][27] 性能表现基准测试 - 在COCO全景分割中PQ达54.7，接近Mask2Former（57.8）；在A150-OV数据集上AP达16.2，远超ODISE（14.4）和PSALM（9.0） [31] - Referring分割任务中，RefCOCO/+/g的cIoU分别达85.1/78.0/83.8，超越PSALM（83.6/72.9/73.8）和Sa2VA（81.6/76.2/78.7） [32] - 推理分割任务gIoU达56.6，超过LISA-7B（52.9）；GCG分割mIoU达69.4，远超GLaMM（65.8） [32][33] 新任务VGD分割 - 在COCO-VGD数据集上，点/涂鸦/框/掩码提示的AP分别达47.9/48.7/49.5/49.7，远超PSALM（2.0-3.7） [26][35] - 支持跨图像VGD分割，用一张图的视觉提示在另一张图中分割同类对象 [26] 消融实验 - 混合微调使开放词汇分割AP从16.4提升至22.4，推理分割gIoU从48.2跃升至57.1 [37] - 双编码器组合使GCG分割mIoU达69.4，远超单编码器方案（Swin编码器为62.5） [38] - 多阶段训练中，跳过分割器微调会使COCO全景分割PQ降至45.2，完整训练提升至54.7 [39] - Mask2Former解码器比SAM原生解码器PQ提升9.2，加入多尺度特征后PQ再提升1.3 [41] 未来方向 - 计划与SAM2结合拓展至视频分割，将VGD分割延伸到视频领域实现"跨时空视觉定位" [43] - 需解决任务平衡难题（部分分割任务因对话数据干扰性能下降）和性能不均问题（某些细分任务略逊于专门优化模型） [46]