Meta「分割一切」3.0曝光,技能语义分割加入概念提示,好好玩,要爆了
Meta PlatformsMeta Platforms(US:META) 36氪·2025-10-13 11:52

模型核心突破 - 第三代“分割一切”模型SAM 3引入可提示概念分割新范式,支持通过自然语言短语或图像示例在图片或视频中分割所有匹配概念的实例[3][6] - 新任务范式PCS具备开放性词汇、全实例分割、多模态提示和用户交互四大特性,突破前代模型仅能处理单个实例的限制[7][8] - 模型处理单张含100多个物体的图片仅需30毫秒,对视频具备近实时处理能力[5][20] 技术架构创新 - 检测器基于DETR架构,新增Presence Head模块将物体识别与定位任务解耦,提升多实例分割场景下的检测精度[9][11] - 通过可扩展数据引擎构建训练数据集,覆盖400万独特概念标签和5200万经过验证的掩码[12] - 专门提出SA-Co基准用于评估开放词汇分割任务,涵盖214K独特概念、124K图像和1.7K视频,概念覆盖范围为现有基准50倍以上[13] 性能表现 - 在LVIS数据集零样本分割任务中准确率达47.0,超越此前最优水平38.5[16] - 在SA-Co基准测试中表现优于基线方法至少2倍,在实例分割、边界框检测和语义分割任务中全面领先[16][17] - 视频分割任务在DAVIS17等数据集上J&F指标达78.4,优于SAM 2的75.2[18] 应用扩展潜力 - 与多模态大模型结合可处理复杂推理任务,如分割“坐着但没拿礼物盒的人”,在ReasonSeg任务中gIoU指标达76.0[19][20] - 在Omnilabel任务中AP指标达46.7,显示其处理复杂语言描述任务的强大能力[20] - 模型支持用户交互优化分割结果,为实际应用提供精细化调整空间[8]