SAM 2
搜索文档
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
具身智能之心· 2025-10-14 08:02
SAM 3 技术发布与背景 - 一篇匿名论文“SAM 3: SEGMENT ANYTHING WITH CONCEPTS”登陆ICLR 2026,引发广泛关注,外界普遍猜测其为Meta公司“Segment Anything”系列的正式续作[3][5] - SAM系列发展节奏清晰,SAM 1于2023年4月发表并获得ICCV最佳论文提名,SAM 2于2024年7月发表,SAM 3的登场符合一年一度的更新节奏[6][7][8] - 该工作被定义为一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS),其核心是识别原子视觉概念[9] SAM 3 核心技术突破 - SAM 3实现了从“手动一个个点出来”到“告诉模型一个概念,它帮你全部找出来”的升级,用户可通过简短名词短语、图像范例或两者组合来指定视觉概念并分割所有实例[9][12][13] - 模型在论文提出的新基准SA-Co上性能比之前系统提升至少2倍,在LVIS数据集上零样本掩码平均精度达到47.0,超越之前最佳纪录38.5[13] - 模型处理效率高,在单个H200 GPU上处理一张有超过100个物体的图像仅需30毫秒[13] - 针对PCS任务的固有模糊性问题,公司在数据收集、指标设计和模型训练等多个阶段进行了系统化处理,并允许用户通过添加优化提示来消除歧义[19] 数据、架构与基准测试 - 研究构建了人机协同数据引擎,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集[20] - 模型采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块相结合可应用于视频领域[19] - 本文创建了用于PCS任务的Segment Anything with Concepts(SA-Co)基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上[24] 实验性能表现 - 在零样本设置下,SAM 3在LVIS掩码任务上表现显著更好,在开放词汇SA-Co/Gold数据集上的CGF分数是最强基线OWLv2的两倍[27][28] - 在ADE-847、PascalConcept-59和Cityscapes上进行的开放词汇语义分割实验显示,SAM 3的表现超越了强大的专家型基线APE[29] - 在小样本自适应方面,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型[30] - 在物体计数任务中,SAM 3不仅实现了良好的物体计数准确率(如CountBench上MAE为0.11,Acc为95.6),还提供了大多数MLLM无法提供的对象分割功能[32][33] - 在视频分割任务中,SAM 3的表现远超基线,在大多数基准测试中比SAM 2取得了显著改进,对于交互式图像分割任务,SAM 3在平均mIoU方面优于SAM 2[33][34][35]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
机器之心· 2025-10-13 12:21
文章核心观点 - Meta公司据信发布了其“Segment Anything”系列模型的最新迭代SAM 3,该模型被定义为“可提示概念分割”,能够根据简单的名词短语或图像范例,在图像或视频中识别并分割出所有指定概念的实例,实现了从手动提示到概念理解的重大升级 [1][3][8][12] 技术进展与定义 - SAM 3的核心任务是“可提示概念分割”,其输入可以是文本(如“红苹果”)和/或图像范例,输出为每个匹配对象的实例掩码和语义掩码,并在视频中保持对象身份一致性 [8] - 与前代产品相比,SAM 3解决了更广泛的任务,即自动找出并分割输入内容中某一概念的所有实例,而SAM 1和SAM 2的重点在于视觉提示(如点、框),文本提示功能未被完全开发 [9][10] - 该模型专注于识别原子视觉概念,将输入文本限制为简单的名词短语,实现了扎根于视觉的极简语言理解 [8] 性能表现 - 在论文提出的新基准SA-Co上,SAM 3的性能比之前系统提升至少2倍,并在多个公开基准测试中达到SOTA水平,例如在LVIS数据集上,其零样本掩码平均精度达到47.0,超越之前最佳纪录38.5 [13] - 模型处理效率高,在单个H200 GPU上处理一张包含超过100个物体的图像仅需30毫秒 [14] - 在小样本自适应设置下,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型如gDino [30] 模型架构与数据 - SAM 3采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块结合可应用于视频领域 [20] - 研究构建了可扩展的人机协同数据引擎用于标注,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集 [21] - 为PCS任务创建了SA-Co基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上 [25] 实验成果 - 在开放词汇SA-Co/Gold数据集上,SAM 3的CGF分数是最强基线OWLv2的两倍,在其他SA-Co子集上的提升更高 [28] - 在物体计数任务中,SAM 3实现了良好的准确率,其平均绝对误差在CountBench上为0.11,准确率达95.6%,并提供了大多数多模态大模型无法提供的对象分割功能 [33] - 在视频分割任务中,SAM 3的表现远超基线,在SA-V基准上CGF1达到27.8,pHOTA达到53.9,在大多数基准测试中比SAM 2有显著改进 [34][35][36]