Meta在视觉AI模型SAM系列的技术演进 - 公司从2023年发布SAM1开始,开创了“可提示图像分割”领域,通过简单的图像框选、点击或语义提示完成图像分割,标志着计算机视觉技术进入新时代 [1] - 2024年发布的SAM2在架构上进行了重要优化,增强了对视频分割和动态场景的支持,提升了模型的稳定性和精度,并强化了对多个实例的跟踪能力 [3] - SAM3相比于前两代实现了飞跃,不仅在精度上达到全新高度,还拥有更强大的多模态支持,能够通过语音、文本、图像等多种输入方式进行精准物体分割 [3] - SAM3通过全新的Promptable Concept Segmentation任务,在开放词汇概念分割和多物体跟踪方面达到了前所未有的精准度和灵活性,能够识别并分割任何指定的对象 [3] SAM系列模型的技术指标对比 - 模型尺寸:SAM1较小,适用于实时推理;SAM2优化了结构更高效;SAM3增强了计算能力,支持更复杂任务 [4] - 推理速度:SAM1支持实时单物体分割;SAM2提升了视频分割能力;SAM3支持实时视频与图像分割及多物体处理 [4] - 支持的提示方式:SAM1支持图像框选、点击;SAM2加强了视频跟踪功能;SAM3支持多模态提示:图像、文本、语音 [4] - 多物体跟踪:SAM1仅支持单一物体分割;SAM2支持视频中的多物体跟踪;SAM3实现更高精度的多物体跟踪与标识 [4] - 长上下文处理:SAM1限制性较强;SAM2增强了视频帧间关联;SAM3支持长上下文语义推理,提升视频场景分析能力 [4] - 开源贡献:SAM1为基础版本;SAM2加强了稳定性和效率;SAM3完全开源,涵盖更多应用场景 [4] SAM3的核心技术架构与组件 - 核心技术是Promptable Concept Segmentation,使模型不仅能分割物体,还能根据概念进行识别,例如识别所有“红色车”实例 [11] - 检测器模块是核心组件,负责生成物体的分割掩码、边界框和物体评分,接收来自图像编码器和文本编码器的输入 [16] - 文本编码器将文本输入转化为模型可理解的特征向量,示例编码器处理输入的示例图像以帮助模型理解目标物体 [18][22] - 跟踪器用于在视频连续帧之间追踪已检测到的物体,确保分割结果的一致性;记忆库存储已检测物体信息,帮助在多个帧之间保留对物体的理解 [18] - 多模态解码器负责将来自文本和图像的特征融合,通过跨模态解码操作生成分割结果,使模型在理解复杂提示和场景时更为灵活 [19] - 检测解码器通过自注意力和交叉注意力机制融合多模态信息,生成物体的边界框、分割掩码等信息;Heads模块通过迭代框体细化提高检测精度 [22] SAM3在基准测试中的性能表现 - 在实例分割任务LVIS数据集上,SAM3的cgF1得分为37.2,AP得分为48.5,显著优于OWLv2的20.1 cgF1分 [21] - 在概念分割任务SA-Co数据集上,SAM3的Gold cgF1为54.1,Silver为49.6,Bronze为42.6,pmF1为55.4,全面领先于对比模型 [21] - 在目标检测任务COCO数据集上,SAM3的AP为53.6,APo为56.4,表现优于OWLv2的AP 35.2和APo 38.2 [21] - 在语义分割任务ADE-847数据集上,SAM3的mIoU为60.8,在PC-59 Cityscapes数据集上mIoU为65.2 [21] - 在ODinW13数据集上,SAM3的APo为61.0,AP10为71.8,表现优于gDino1.5-Pro的APo 58.7和AP10 67.9 [21] - 在多模态输入评估中,SAM3的T+I模式在LVIS数据集上AP+达到63.1,在ODinW13数据集上AP+达到81.8,证明了其多模态结合的优势 [21] SAM3 Agent与大型语言模型结合的应用 - 公司将SAM3与MLLMs组合,例如使用Qwen2.5-VL、GPT-4等生成复杂文本查询来指导SAM3执行物体分割任务 [21] - SAM3 Agent在ReasonSeg数据集上,结合Qwen2.5-VL 72B时,测试集gIoU达到70.8,结合Gemini 2.5 Pro时达到74.0 [24] - 在Omnilabel数据集上,SAM3 Agent结合Gemini 2.5 Pro在val 2023集上的AP达到45.3,超越了Overall state-of-the-art的36.5 [24] - 结合MLLM后,SAM3 Agent在多个数据集上进行了零-shot测试,证明了其强大的推理能力和灵活性,在ReasonSeg和OmniLabel任务中表现出色 [29] SAM3的技术优势与行业影响 - 模型在不同数据集上均展现优越性能,特别是在零-shot学习和多模态输入上,能在没有大量标注数据的情况下进行有效的物体分割 [23] - 多模态能力强,结合文本提示和图像示例时,通过T+I模式显著提升分割效果,证明了其在多模态任务中的优势 [23] - 具备强大的跨任务适应能力,在多种不同任务和数据集上表现出色,特别是在实例分割和概念分割任务中展示了强大的泛化能力 [23] - 技术演进从SAM1打开视觉分割新纪元,到SAM2精准捕捉动态视频场景,再到SAM3穿越复杂的多模态场景,在智能家居、医疗影像、自动驾驶等领域发挥巨大影响 [25][26]
从SAM1到SAM3,Meta做了什么?