Promptable Concept Segmentation (PCS)
搜索文档
从SAM1到SAM3,Meta做了什么?
自动驾驶之心· 2025-12-06 11:04
Meta在视觉AI模型SAM系列的技术演进 - 公司从2023年发布SAM1开始,开创了“可提示图像分割”领域,通过简单的图像框选、点击或语义提示完成图像分割,标志着计算机视觉技术进入新时代 [1] - 2024年发布的SAM2在架构上进行了重要优化,增强了对视频分割和动态场景的支持,提升了模型的稳定性和精度,并强化了对多个实例的跟踪能力 [3] - SAM3相比于前两代实现了飞跃,不仅在精度上达到全新高度,还拥有更强大的多模态支持,能够通过语音、文本、图像等多种输入方式进行精准物体分割 [3] - SAM3通过全新的Promptable Concept Segmentation任务,在开放词汇概念分割和多物体跟踪方面达到了前所未有的精准度和灵活性,能够识别并分割任何指定的对象 [3] SAM系列模型的技术指标对比 - 模型尺寸:SAM1较小,适用于实时推理;SAM2优化了结构更高效;SAM3增强了计算能力,支持更复杂任务 [4] - 推理速度:SAM1支持实时单物体分割;SAM2提升了视频分割能力;SAM3支持实时视频与图像分割及多物体处理 [4] - 支持的提示方式:SAM1支持图像框选、点击;SAM2加强了视频跟踪功能;SAM3支持多模态提示:图像、文本、语音 [4] - 多物体跟踪:SAM1仅支持单一物体分割;SAM2支持视频中的多物体跟踪;SAM3实现更高精度的多物体跟踪与标识 [4] - 长上下文处理:SAM1限制性较强;SAM2增强了视频帧间关联;SAM3支持长上下文语义推理,提升视频场景分析能力 [4] - 开源贡献:SAM1为基础版本;SAM2加强了稳定性和效率;SAM3完全开源,涵盖更多应用场景 [4] SAM3的核心技术架构与组件 - 核心技术是Promptable Concept Segmentation,使模型不仅能分割物体,还能根据概念进行识别,例如识别所有“红色车”实例 [11] - 检测器模块是核心组件,负责生成物体的分割掩码、边界框和物体评分,接收来自图像编码器和文本编码器的输入 [16] - 文本编码器将文本输入转化为模型可理解的特征向量,示例编码器处理输入的示例图像以帮助模型理解目标物体 [18][22] - 跟踪器用于在视频连续帧之间追踪已检测到的物体,确保分割结果的一致性;记忆库存储已检测物体信息,帮助在多个帧之间保留对物体的理解 [18] - 多模态解码器负责将来自文本和图像的特征融合,通过跨模态解码操作生成分割结果,使模型在理解复杂提示和场景时更为灵活 [19] - 检测解码器通过自注意力和交叉注意力机制融合多模态信息,生成物体的边界框、分割掩码等信息;Heads模块通过迭代框体细化提高检测精度 [22] SAM3在基准测试中的性能表现 - 在实例分割任务LVIS数据集上,SAM3的cgF1得分为37.2,AP得分为48.5,显著优于OWLv2的20.1 cgF1分 [21] - 在概念分割任务SA-Co数据集上,SAM3的Gold cgF1为54.1,Silver为49.6,Bronze为42.6,pmF1为55.4,全面领先于对比模型 [21] - 在目标检测任务COCO数据集上,SAM3的AP为53.6,APo为56.4,表现优于OWLv2的AP 35.2和APo 38.2 [21] - 在语义分割任务ADE-847数据集上,SAM3的mIoU为60.8,在PC-59 Cityscapes数据集上mIoU为65.2 [21] - 在ODinW13数据集上,SAM3的APo为61.0,AP10为71.8,表现优于gDino1.5-Pro的APo 58.7和AP10 67.9 [21] - 在多模态输入评估中,SAM3的T+I模式在LVIS数据集上AP+达到63.1,在ODinW13数据集上AP+达到81.8,证明了其多模态结合的优势 [21] SAM3 Agent与大型语言模型结合的应用 - 公司将SAM3与MLLMs组合,例如使用Qwen2.5-VL、GPT-4等生成复杂文本查询来指导SAM3执行物体分割任务 [21] - SAM3 Agent在ReasonSeg数据集上,结合Qwen2.5-VL 72B时,测试集gIoU达到70.8,结合Gemini 2.5 Pro时达到74.0 [24] - 在Omnilabel数据集上,SAM3 Agent结合Gemini 2.5 Pro在val 2023集上的AP达到45.3,超越了Overall state-of-the-art的36.5 [24] - 结合MLLM后,SAM3 Agent在多个数据集上进行了零-shot测试,证明了其强大的推理能力和灵活性,在ReasonSeg和OmniLabel任务中表现出色 [29] SAM3的技术优势与行业影响 - 模型在不同数据集上均展现优越性能,特别是在零-shot学习和多模态输入上,能在没有大量标注数据的情况下进行有效的物体分割 [23] - 多模态能力强,结合文本提示和图像示例时,通过T+I模式显著提升分割效果,证明了其在多模态任务中的优势 [23] - 具备强大的跨任务适应能力,在多种不同任务和数据集上表现出色,特别是在实例分割和概念分割任务中展示了强大的泛化能力 [23] - 技术演进从SAM1打开视觉分割新纪元,到SAM2精准捕捉动态视频场景,再到SAM3穿越复杂的多模态场景,在智能家居、医疗影像、自动驾驶等领域发挥巨大影响 [25][26]
ICLR神秘论文曝光,SAM3用「概念」看世界,重构视觉AI新范式
36氪· 2025-10-14 07:57
模型核心升级 - 模型从可提示视觉分割演进至可提示概念分割,能根据文字或图像提示识别并分割所有符合该概念的目标 [6][8][16] - 新功能PCS解决了前代模型仅能分割单个对象实例的局限,实现了对同一概念下所有对象的自动查找 [8][15] - 模型引入了专门处理概念模糊边界的歧义模块,并通过多专家标注和评估协议优化来应对概念歧义性 [14] 技术架构创新 - 采用双编码器-解码器Transformer架构,将检测器与跟踪器功能解耦,并引入新的存在性Token [16][18] - 在单张H200 GPU上仅需30毫秒即可在单张图片中识别上百个对象,视频场景下保持接近实时处理速度 [11] - 在LVIS数据集上的零样本分割准确度达到47.0,较此前最佳结果38.5有显著提升 [11] 数据引擎与训练集 - 构建了四阶段人机协同数据引擎,利用AI标注员将标注吞吐量翻倍,最终生成包含400万个唯一概念标签的高质量数据集 [11][19][22] - 形成了SA-Co数据集家族,包括520万张图像的SA-Co/HQ、全自动合成的SA-Co/SYN以及包含5.25万视频的SA-Co/VIDEO [26][27] - 训练数据集规模庞大,包含5200万掩码的高质量数据集和14亿掩码的合成数据集 [11][27] 性能基准与影响 - 在SA-Co基准测试中表现提升至少2倍,并在PVS基准上优于SAM 2 [11][28] - 新建立的SA-Co基准涵盖12.6万个样本、21.4万唯一短语及超过300万条标注,为模型评估提供全面标准 [28] - 该技术将图像分割从点选式操作提升到概念级理解,为下一代智能视觉和多模态系统奠定基础 [29]
Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了
量子位· 2025-10-13 11:35
模型概述与核心突破 - 第三代“分割一切”模型SAM 3已投稿ICLR 2026,支持基于短语、图像示例等概念提示的多实例分割任务[3][4][10] - 新模型核心突破在于引入可提示概念分割(PCS)范式,能听懂人话并分割图像/视频中所有匹配提示概念的实例,例如输入“条纹猫”即可找出所有带条纹的猫[6][7][11][12] - SAM 3解决了前代模型只能处理单个实例的局限,实现了全实例分割,并在视频中保持不同帧之间的身份一致性[10][17] 技术架构创新 - 检测器基于DETR架构,能根据语言和视觉提示生成实例级检测结果,并引入Presence Head模块解耦物体识别和定位任务以避免冲突[15][16] - 新架构支持开放性词汇,不局限于预定义类别,允许用户输入任意名词短语作为分割目标,并支持文本、视觉及两者结合的多模态提示[17] - 模型具备用户交互能力,允许通过交互对分割结果进行精细优化[17] 数据与基准测试 - 研究团队构建了可扩展数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集,通过多阶段流程提升数据多样性和难度[19][20] - 人类与大语言模型相互检查以提升标注效率和质量[21] - 提出了SA-Co基准,包含214K独特概念、124K图像和1.7K视频,概念覆盖范围是现有基准的50倍以上,用于评估开放词汇分割性能[23][24] 性能表现 - 在LVIS数据集零样本分割任务中准确率达到47.0,比此前SOTA的38.5提升显著[28] - 在SA-Co基准测试中表现比基线方法强至少2倍,在实例分割、边界框检测和语义分割等多个任务上刷新SOTA[29][30] - 在视频PVS任务中性能优于SAM 2,在H200 GPU上处理含100多个实体的单张图像仅需30毫秒[30][31][35] 应用拓展与局限性 - 与多模态大模型结合可解决复杂任务,如分割“坐着但没拿礼物盒的人”,组合效果优于专门推理分割模型且无需专门训练数据[32][33][34] - 模型对语言处理局限于简单短语提示,不支持复杂语言表达、生成和理解能力[26] - 难以通过零样本方式泛化到医疗图像、热成像等细分领域,多目标视频分割场景下实时性能会下降[36][37]