Workflow
Promptable Concept Segmentation (PCS)
icon
搜索文档
ICLR神秘论文曝光,SAM3用「概念」看世界,重构视觉AI新范式
36氪· 2025-10-14 07:57
2023年4月,Meta AI发布了首个图像分割基础模型Segment Anything Model(SAM)。 SAM的目标是让计算机「能分割任何东西」。 2024年7月,Meta推出SAM 2,将模型扩展到视频分割并显著提升性能。 ICLR 2026会议盲审论文《SAM3:用概念分割一切》https://openreview.net/pdf?id=r35clVtGzw 论文《SAM 3: Segment Anything with Concepts》,也许可以带我们解锁这次SAM新升级的内幕。 该论文目前处于ICLR 2026会议盲审阶段,作者暂未公布身份,但从题目中不难推测其内容为SAM第三代的升级。 SAM3最大的突破在于它强调「基于概念的分割」,即不只是按像素或实例,而是可能按「语义概念」来理解和分割图像: 如今,SAM模型即将迎来第三次升级。 只要给出一个提示,比如「黄色校车」或一张参考图片,SAM 3就能在不同场景里找到并分割出对应的物体。 该功能被定义为可提示的概念分割(Promptable Concept Segmentation,PCS)。 为了支撑PCS,研究团队还构建了一个可扩展的数据 ...
Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了
量子位· 2025-10-13 11:35
模型概述与核心突破 - 第三代“分割一切”模型SAM 3已投稿ICLR 2026,支持基于短语、图像示例等概念提示的多实例分割任务[3][4][10] - 新模型核心突破在于引入可提示概念分割(PCS)范式,能听懂人话并分割图像/视频中所有匹配提示概念的实例,例如输入“条纹猫”即可找出所有带条纹的猫[6][7][11][12] - SAM 3解决了前代模型只能处理单个实例的局限,实现了全实例分割,并在视频中保持不同帧之间的身份一致性[10][17] 技术架构创新 - 检测器基于DETR架构,能根据语言和视觉提示生成实例级检测结果,并引入Presence Head模块解耦物体识别和定位任务以避免冲突[15][16] - 新架构支持开放性词汇,不局限于预定义类别,允许用户输入任意名词短语作为分割目标,并支持文本、视觉及两者结合的多模态提示[17] - 模型具备用户交互能力,允许通过交互对分割结果进行精细优化[17] 数据与基准测试 - 研究团队构建了可扩展数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集,通过多阶段流程提升数据多样性和难度[19][20] - 人类与大语言模型相互检查以提升标注效率和质量[21] - 提出了SA-Co基准,包含214K独特概念、124K图像和1.7K视频,概念覆盖范围是现有基准的50倍以上,用于评估开放词汇分割性能[23][24] 性能表现 - 在LVIS数据集零样本分割任务中准确率达到47.0,比此前SOTA的38.5提升显著[28] - 在SA-Co基准测试中表现比基线方法强至少2倍,在实例分割、边界框检测和语义分割等多个任务上刷新SOTA[29][30] - 在视频PVS任务中性能优于SAM 2,在H200 GPU上处理含100多个实体的单张图像仅需30毫秒[30][31][35] 应用拓展与局限性 - 与多模态大模型结合可解决复杂任务,如分割“坐着但没拿礼物盒的人”,组合效果优于专门推理分割模型且无需专门训练数据[32][33][34] - 模型对语言处理局限于简单短语提示,不支持复杂语言表达、生成和理解能力[26] - 难以通过零样本方式泛化到医疗图像、热成像等细分领域,多目标视频分割场景下实时性能会下降[36][37]