原子级视觉概念 - 财报，业绩电话会，研报，新闻

原子级视觉概念

搜索文档

ICLR 2026惊现SAM 3，分割一切的下一步：让模型理解「概念」

具身智能之心· 2025-10-14 08:02

SAM 3 技术发布与背景 - 一篇匿名论文“SAM 3: SEGMENT ANYTHING WITH CONCEPTS”登陆ICLR 2026，引发广泛关注，外界普遍猜测其为Meta公司“Segment Anything”系列的正式续作[3][5] - SAM系列发展节奏清晰，SAM 1于2023年4月发表并获得ICCV最佳论文提名，SAM 2于2024年7月发表，SAM 3的登场符合一年一度的更新节奏[6][7][8] - 该工作被定义为一个更高级的任务：可提示概念分割（Promptable Concept Segmentation, PCS），其核心是识别原子视觉概念[9] SAM 3 核心技术突破 - SAM 3实现了从“手动一个个点出来”到“告诉模型一个概念，它帮你全部找出来”的升级，用户可通过简短名词短语、图像范例或两者组合来指定视觉概念并分割所有实例[9][12][13] - 模型在论文提出的新基准SA-Co上性能比之前系统提升至少2倍，在LVIS数据集上零样本掩码平均精度达到47.0，超越之前最佳纪录38.5[13] - 模型处理效率高，在单个H200 GPU上处理一张有超过100个物体的图像仅需30毫秒[13] - 针对PCS任务的固有模糊性问题，公司在数据收集、指标设计和模型训练等多个阶段进行了系统化处理，并允许用户通过添加优化提示来消除歧义[19] 数据、架构与基准测试 - 研究构建了人机协同数据引擎，成功标注了包含400万独特短语和5200万掩码的高质量训练数据，以及包含3800万短语和14亿掩码的合成数据集[20] - 模型采用双编码器-解码器Transformer架构，是一个具有图像级识别能力的检测器，通过与跟踪器和内存模块相结合可应用于视频领域[19] - 本文创建了用于PCS任务的Segment Anything with Concepts（SA-Co）基准测试，涵盖124K张图像和1.7K视频中的214K独特概念，其概念数量超过现有基准测试集50倍以上[24] 实验性能表现 - 在零样本设置下，SAM 3在LVIS掩码任务上表现显著更好，在开放词汇SA-Co/Gold数据集上的CGF分数是最强基线OWLv2的两倍[27][28] - 在ADE-847、PascalConcept-59和Cityscapes上进行的开放词汇语义分割实验显示，SAM 3的表现超越了强大的专家型基线APE[29] - 在小样本自适应方面，SAM 3在10-shot设置下实现了当前最优性能，超过了Gemini的上下文提示以及目标检测专家模型[30] - 在物体计数任务中，SAM 3不仅实现了良好的物体计数准确率（如CountBench上MAE为0.11，Acc为95.6），还提供了大多数MLLM无法提供的对象分割功能[32][33] - 在视频分割任务中，SAM 3的表现远超基线，在大多数基准测试中比SAM 2取得了显著改进，对于交互式图像分割任务，SAM 3在平均mIoU方面优于SAM 2[33][34][35]

Meta Platforms(US:META)