Workflow
Semantic Segmentation
icon
搜索文档
Meta「分割一切」3.0曝光,技能语义分割加入概念提示,好好玩,要爆了
36氪· 2025-10-13 11:52
模型核心突破 - 第三代“分割一切”模型SAM 3引入可提示概念分割新范式,支持通过自然语言短语或图像示例在图片或视频中分割所有匹配概念的实例[3][6] - 新任务范式PCS具备开放性词汇、全实例分割、多模态提示和用户交互四大特性,突破前代模型仅能处理单个实例的限制[7][8] - 模型处理单张含100多个物体的图片仅需30毫秒,对视频具备近实时处理能力[5][20] 技术架构创新 - 检测器基于DETR架构,新增Presence Head模块将物体识别与定位任务解耦,提升多实例分割场景下的检测精度[9][11] - 通过可扩展数据引擎构建训练数据集,覆盖400万独特概念标签和5200万经过验证的掩码[12] - 专门提出SA-Co基准用于评估开放词汇分割任务,涵盖214K独特概念、124K图像和1.7K视频,概念覆盖范围为现有基准50倍以上[13] 性能表现 - 在LVIS数据集零样本分割任务中准确率达47.0,超越此前最优水平38.5[16] - 在SA-Co基准测试中表现优于基线方法至少2倍,在实例分割、边界框检测和语义分割任务中全面领先[16][17] - 视频分割任务在DAVIS17等数据集上J&F指标达78.4,优于SAM 2的75.2[18] 应用扩展潜力 - 与多模态大模型结合可处理复杂推理任务,如分割“坐着但没拿礼物盒的人”,在ReasonSeg任务中gIoU指标达76.0[19][20] - 在Omnilabel任务中AP指标达46.7,显示其处理复杂语言描述任务的强大能力[20] - 模型支持用户交互优化分割结果,为实际应用提供精细化调整空间[8]
Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了
量子位· 2025-10-13 11:35
模型概述与核心突破 - 第三代“分割一切”模型SAM 3已投稿ICLR 2026,支持基于短语、图像示例等概念提示的多实例分割任务[3][4][10] - 新模型核心突破在于引入可提示概念分割(PCS)范式,能听懂人话并分割图像/视频中所有匹配提示概念的实例,例如输入“条纹猫”即可找出所有带条纹的猫[6][7][11][12] - SAM 3解决了前代模型只能处理单个实例的局限,实现了全实例分割,并在视频中保持不同帧之间的身份一致性[10][17] 技术架构创新 - 检测器基于DETR架构,能根据语言和视觉提示生成实例级检测结果,并引入Presence Head模块解耦物体识别和定位任务以避免冲突[15][16] - 新架构支持开放性词汇,不局限于预定义类别,允许用户输入任意名词短语作为分割目标,并支持文本、视觉及两者结合的多模态提示[17] - 模型具备用户交互能力,允许通过交互对分割结果进行精细优化[17] 数据与基准测试 - 研究团队构建了可扩展数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集,通过多阶段流程提升数据多样性和难度[19][20] - 人类与大语言模型相互检查以提升标注效率和质量[21] - 提出了SA-Co基准,包含214K独特概念、124K图像和1.7K视频,概念覆盖范围是现有基准的50倍以上,用于评估开放词汇分割性能[23][24] 性能表现 - 在LVIS数据集零样本分割任务中准确率达到47.0,比此前SOTA的38.5提升显著[28] - 在SA-Co基准测试中表现比基线方法强至少2倍,在实例分割、边界框检测和语义分割等多个任务上刷新SOTA[29][30] - 在视频PVS任务中性能优于SAM 2,在H200 GPU上处理含100多个实体的单张图像仅需30毫秒[30][31][35] 应用拓展与局限性 - 与多模态大模型结合可解决复杂任务,如分割“坐着但没拿礼物盒的人”,组合效果优于专门推理分割模型且无需专门训练数据[32][33][34] - 模型对语言处理局限于简单短语提示,不支持复杂语言表达、生成和理解能力[26] - 难以通过零样本方式泛化到医疗图像、热成像等细分领域,多目标视频分割场景下实时性能会下降[36][37]