Meta「分割一切」3.0曝光！技能语义分割加入概念提示，好好玩，要爆了

模型概述与核心突破 - 第三代“分割一切”模型SAM 3已投稿ICLR 2026，支持基于短语、图像示例等概念提示的多实例分割任务[3][4][10] - 新模型核心突破在于引入可提示概念分割（PCS）范式，能听懂人话并分割图像/视频中所有匹配提示概念的实例，例如输入“条纹猫”即可找出所有带条纹的猫[6][7][11][12] - SAM 3解决了前代模型只能处理单个实例的局限，实现了全实例分割，并在视频中保持不同帧之间的身份一致性[10][17] 技术架构创新 - 检测器基于DETR架构，能根据语言和视觉提示生成实例级检测结果，并引入Presence Head模块解耦物体识别和定位任务以避免冲突[15][16] - 新架构支持开放性词汇，不局限于预定义类别，允许用户输入任意名词短语作为分割目标，并支持文本、视觉及两者结合的多模态提示[17] - 模型具备用户交互能力，允许通过交互对分割结果进行精细优化[17] 数据与基准测试 - 研究团队构建了可扩展数据引擎，生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集，通过多阶段流程提升数据多样性和难度[19][20] - 人类与大语言模型相互检查以提升标注效率和质量[21] - 提出了SA-Co基准，包含214K独特概念、124K图像和1.7K视频，概念覆盖范围是现有基准的50倍以上，用于评估开放词汇分割性能[23][24] 性能表现 - 在LVIS数据集零样本分割任务中准确率达到47.0，比此前SOTA的38.5提升显著[28] - 在SA-Co基准测试中表现比基线方法强至少2倍，在实例分割、边界框检测和语义分割等多个任务上刷新SOTA[29][30] - 在视频PVS任务中性能优于SAM 2，在H200 GPU上处理含100多个实体的单张图像仅需30毫秒[30][31][35] 应用拓展与局限性 - 与多模态大模型结合可解决复杂任务，如分割“坐着但没拿礼物盒的人”，组合效果优于专门推理分割模型且无需专门训练数据[32][33][34] - 模型对语言处理局限于简单短语提示，不支持复杂语言表达、生成和理解能力[26] - 难以通过零样本方式泛化到医疗图像、热成像等细分领域，多目标视频分割场景下实时性能会下降[36][37]