文章核心观点 - Meta公司据信发布了其“Segment Anything”系列模型的最新迭代SAM 3,该模型被定义为“可提示概念分割”,能够根据简单的名词短语或图像范例,在图像或视频中识别并分割出所有指定概念的实例,实现了从手动提示到概念理解的重大升级 [1][3][8][12] 技术进展与定义 - SAM 3的核心任务是“可提示概念分割”,其输入可以是文本(如“红苹果”)和/或图像范例,输出为每个匹配对象的实例掩码和语义掩码,并在视频中保持对象身份一致性 [8] - 与前代产品相比,SAM 3解决了更广泛的任务,即自动找出并分割输入内容中某一概念的所有实例,而SAM 1和SAM 2的重点在于视觉提示(如点、框),文本提示功能未被完全开发 [9][10] - 该模型专注于识别原子视觉概念,将输入文本限制为简单的名词短语,实现了扎根于视觉的极简语言理解 [8] 性能表现 - 在论文提出的新基准SA-Co上,SAM 3的性能比之前系统提升至少2倍,并在多个公开基准测试中达到SOTA水平,例如在LVIS数据集上,其零样本掩码平均精度达到47.0,超越之前最佳纪录38.5 [13] - 模型处理效率高,在单个H200 GPU上处理一张包含超过100个物体的图像仅需30毫秒 [14] - 在小样本自适应设置下,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型如gDino [30] 模型架构与数据 - SAM 3采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块结合可应用于视频领域 [20] - 研究构建了可扩展的人机协同数据引擎用于标注,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集 [21] - 为PCS任务创建了SA-Co基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上 [25] 实验成果 - 在开放词汇SA-Co/Gold数据集上,SAM 3的CGF分数是最强基线OWLv2的两倍,在其他SA-Co子集上的提升更高 [28] - 在物体计数任务中,SAM 3实现了良好的准确率,其平均绝对误差在CountBench上为0.11,准确率达95.6%,并提供了大多数多模态大模型无法提供的对象分割功能 [33] - 在视频分割任务中,SAM 3的表现远超基线,在SA-V基准上CGF1达到27.8,pHOTA达到53.9,在大多数基准测试中比SAM 2有显著改进 [34][35][36]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」