Workflow
视觉分割
icon
搜索文档
突破SAM局限!美团提出X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-13 07:33
X-SAM技术突破 - X-SAM由中山大学、鹏城实验室和美团团队联合开发,将分割能力从"分割任何事物"扩展到"任何分割",支持文本指令、视觉提示及跨图像场景的精准分割[3][4] - 模型在20+数据集、7大核心任务上全面超越现有方案,包括通用分割、开放词汇分割、指代分割等,刷新像素级视觉理解基准[4][28] - 创新性提出视觉定位分割(VGD)任务,支持根据单点提示分割图像中所有同类实例,跨图像VGD分割AP达47.9-49.7,远超PSALM模型的2.0-3.7[26][35] 核心技术架构 - 采用统一输入格式设计,通过<p>和<region>标签标准化文本/视觉查询输入,实现多任务融合处理[13][15] - 双编码器架构包含SigLIP图像编码器和SAM-L分割编码器,分别提取全局场景特征与像素级细节特征[19] - 分割连接器生成1/8至1/32多尺度特征,结合Mask2Former解码器实现多对象同步分割,LLM采用Phi-3-mini-4k-instruct处理语言交互[19][20] 训练策略创新 - 三阶段训练流程:分割器微调(COCO数据集)→对齐预训练(LLaVA-558K)→混合微调(多任务数据集)[23][27] - 动态平衡数据集采样策略,解决样本量差异(0.2K-665K)带来的训练偏差,最优参数t=0.1[24] - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2升至57.1,验证多任务协同效应[37] 性能表现 - 指代分割任务在RefCOCO系列数据集cIoU达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和8B参数的Sa2VA[29][32] - 定位对话生成(GCG)任务mIoU 69.4,优于GLaMM(65.8)和OMG-LLaVA(65.5),实现文本描述与分割掩码同步输出[33] - 通用分割任务PQ 54.7接近Mask2Former(57.8),开放词汇分割AP 16.2远超ODISE(14.4)[31] 行业应用前景 - 技术突破使多模态大模型具备真正的像素级理解能力,可应用于智能医疗影像、自动驾驶场景解析等领域[4][8] - 统一框架解决工程落地需部署多个专用模型的问题,显著提升分割任务处理效率[6][36] - 未来计划扩展至视频分割领域,结合SAM2实现跨时空视觉定位,开拓动态场景理解新方向[43]
突破SAM局限!中山大学X-SAM:统一框架横扫20+分割基准
自动驾驶之心· 2025-08-12 18:37
核心观点 - X-SAM是由中山大学、鹏城实验室和美团团队提出的突破性框架,将分割范式从"分割任何事物"推向"任何分割",实现了多任务、多模态的统一分割能力 [3][4] - X-SAM在超过20个分割数据集、7大核心任务上全面超越现有模型,包括文本指令驱动的分割任务和跨图像场景的精准分割 [4] - X-SAM通过三大支柱创新(统一输入格式、双编码器架构、多阶段训练)解决了SAM的局限性,如任务单一性、模态割裂和多任务壁垒 [12][6] 技术架构 统一输入格式 - 设计统一输入规则,用`<p>`和`</p>`标记文本查询,`<region>`标签代表视觉提示(点、框、涂鸦等),使不同任务能被模型统一处理 [13][15] 双编码器架构 - 图像编码器(SigLIP2-so400m)提取全局特征,分割编码器(SAM-L)捕捉像素级细节,双投影器将视觉特征转换为与语言模型匹配的维度 [19] - 分割连接器通过补丁合并和扩展操作生成1/8、1/16、1/32三种尺度特征,支持不同大小物体的分割 [19][17] - 分割解码器基于Mask2Former架构,能一次性输出多个分割掩码,并通过LLM生成的`<SEG>`标签关联类别或描述 [20] 多阶段训练 - 分割器微调:在COCO全景分割数据集上训练分割编码器和解码器,使用分类损失、掩码损失和dice损失 [27] - 对齐预训练:在LLaVA-558K数据集上训练双投影器,使视觉特征与语言模型词嵌入空间对齐 [27] - 混合微调:混合多种任务数据集训练,采用数据集平衡重采样策略(参数t=0.1)解决数据集大小差异问题 [24][27] 性能表现 基准测试 - 在COCO全景分割中PQ达54.7,接近Mask2Former(57.8);在A150-OV数据集上AP达16.2,远超ODISE(14.4)和PSALM(9.0) [31] - Referring分割任务中,RefCOCO/+/g的cIoU分别达85.1/78.0/83.8,超越PSALM(83.6/72.9/73.8)和Sa2VA(81.6/76.2/78.7) [32] - 推理分割任务gIoU达56.6,超过LISA-7B(52.9);GCG分割mIoU达69.4,远超GLaMM(65.8) [32][33] 新任务VGD分割 - 在COCO-VGD数据集上,点/涂鸦/框/掩码提示的AP分别达47.9/48.7/49.5/49.7,远超PSALM(2.0-3.7) [26][35] - 支持跨图像VGD分割,用一张图的视觉提示在另一张图中分割同类对象 [26] 消融实验 - 混合微调使开放词汇分割AP从16.4提升至22.4,推理分割gIoU从48.2跃升至57.1 [37] - 双编码器组合使GCG分割mIoU达69.4,远超单编码器方案(Swin编码器为62.5) [38] - 多阶段训练中,跳过分割器微调会使COCO全景分割PQ降至45.2,完整训练提升至54.7 [39] - Mask2Former解码器比SAM原生解码器PQ提升9.2,加入多尺度特征后PQ再提升1.3 [41] 未来方向 - 计划与SAM2结合拓展至视频分割,将VGD分割延伸到视频领域实现"跨时空视觉定位" [43] - 需解决任务平衡难题(部分分割任务因对话数据干扰性能下降)和性能不均问题(某些细分任务略逊于专门优化模型) [46]