TPAMI | DC-SAM:打破SAM交互限制,基于循环一致性的图像与视频上下文分割方法
机器之心·2026-01-20 12:51

研究背景与问题定义 - 以SAM和SAM2为代表的视觉基础模型缺乏“上下文分割”能力,即无法仅凭一张带掩码的参考示例图像,在查询图像中自动分割出同类目标 [5] - 现有的少样本学习方法泛化能力有限,而SegGPT等通用模型计算资源消耗巨大,现有的SAM适配方法未能充分利用其提示编码器特征和背景信息,导致提示精度不足 [5] - 视频领域的上下文分割研究尚属空白,缺乏评估“基于参考示例进行视频分割”能力的专用基准 [6] 解决方案:DC-SAM框架 - 研究团队提出了DC-SAM统一高效框架,旨在通过提示微调技术,将SAM与SAM2的能力迁移至图像和视频的上下文分割任务 [6] - 框架核心由三部分组成:基于SAM的特征融合、正负双分支循环一致性提示生成、面向视频的Mask-tube训练策略 [14] - 特征融合策略将骨干网络特征、SAM图像编码器特征及参考掩码加权特征进行拼接融合,以弥合“语义鸿沟”,提供更适配SAM的输入 [17][18] - 正负双分支结构分别利用前景和背景掩码生成提示,并引入循环一致性交叉注意力机制,通过偏置项屏蔽语义不一致的匹配,防止“语义漂移”,确保生成高精度提示 [20][21][22] - 通过轻量级的Mask-tube训练策略,将静态图像堆叠为伪视频序列以模拟时序变化,使模型能无缝处理视频任务 [25] 创新基准:IC-VOS数据集 - 研究团队构建了首个视频上下文分割基准IC-VOS,旨在全面衡量模型在视频上下文中基于示例学习的能力 [6][9] - 该数据集填补了现有VOS数据集侧重于首帧追踪、而Few-shot图像数据集丢失时间维度的空白 [10] - IC-VOS涵盖了极小目标分割、快速运动变形及复杂背景融合等极其丰富的挑战性场景 [10] 性能评估与实验结果 - 在图像上下文分割基准COCO-20上,基于DINOv2的DC-SAM取得了62.0 mIoU的平均成绩,相比使用海量图文对训练的通用模型SegGPT(56.1 mIoU)实现了近6%的性能反超 [27] - 在同等ResNet50骨干网络下,DC-SAM在COCO-20上超越了现有最强的SAM适配方法VRP-SAM达1.6% [27] - 在Pascal-5基准上,DC-SAM取得了73.0 mIoU的平均成绩 [28] - 在首创的视频基准IC-VOS上,DC-SAM取得了71.52的J&F得分,以6.4%的显著优势超越了VRP-SAM [28] - 可视化分析表明,DC-SAM在图像任务中对复杂结构和细粒度特征捕捉能力强,在视频任务中能有效抑制语义漂移,实现稳健的目标锁定与追踪 [29][30] 研究意义与应用前景 - DC-SAM为视觉大模型的落地应用,尤其是在需要高效、自动处理海量视频数据的工业与科研领域,提供了极具竞争力的解决方案 [32] - 该研究已被IEEE TPAMI期刊录用 [3]