可提示概念分割 - 财报，业绩电话会，研报，新闻

可提示概念分割

搜索文档

具身智能之心· 2025-11-21 08:04

Meta SAM系列技术更新核心观点 - Meta发布SAM 3D和SAM 3两项重大更新，将图像3D理解与概念分割能力提升至新水平[1] - 两项新技术均具备业界领先的SOTA性能，并同步开放模型权重与推理代码[2][7] - 公司推出Segment Anything Playground平台，方便用户体验新模型能力[8] SAM 3D技术细节 - SAM 3D包含两个模型：SAM 3D Objects支持物体与场景重建，SAM 3D Body专注于人体形状与姿态估计[4] - SAM 3D Objects能从单张自然图像实现稳健、真实感强的3D重建与物体姿态估计，生成带姿态信息的3D模型[11][15] - 技术核心创新在于构建可扩展的数据引擎，通过标注近100万张图像生成约314万个3D网格，突破真实世界3D数据获取瓶颈[20][26] - SAM 3D Body基于全新开源3D网格格式MHR，构建于Transformer架构，使用包含约800万张图像的数据集训练，能处理遮挡、罕见姿态等复杂情况[30][31][33] SAM 3技术细节 - SAM 3引入可提示概念分割能力，能根据文本或图像提示找到并分割某个概念的所有实例，克服现有模型在细致请求下的困难[38][40] - 模型架构建立在Meta Perception Encoder等多项AI进展之上，检测模块基于DETR，跟踪模块基于SAM 2的memory bank技术[42] - 性能取得跨越式提升，将cgF1分数提升两倍，优于Gemini 2.5 Pro等基础模型和专业模型[44] - 推理效率极高，在H200 GPU上对单张含超100个检测目标的图像仅需30毫秒，视频中多目标情况下仍可保持近实时表现[44]

Meta Platforms(US:META)

3D重建

可提示概念分割

具身智能

Artificial Intelligence

Artificial Intelligence

SAM 3D

SAM 3

ICLR 2026惊现SAM 3，分割一切的下一步：让模型理解「概念」

具身智能之心· 2025-10-14 08:02

SAM 3 技术发布与背景 - 一篇匿名论文“SAM 3: SEGMENT ANYTHING WITH CONCEPTS”登陆ICLR 2026，引发广泛关注，外界普遍猜测其为Meta公司“Segment Anything”系列的正式续作[3][5] - SAM系列发展节奏清晰，SAM 1于2023年4月发表并获得ICCV最佳论文提名，SAM 2于2024年7月发表，SAM 3的登场符合一年一度的更新节奏[6][7][8] - 该工作被定义为一个更高级的任务：可提示概念分割（Promptable Concept Segmentation, PCS），其核心是识别原子视觉概念[9] SAM 3 核心技术突破 - SAM 3实现了从“手动一个个点出来”到“告诉模型一个概念，它帮你全部找出来”的升级，用户可通过简短名词短语、图像范例或两者组合来指定视觉概念并分割所有实例[9][12][13] - 模型在论文提出的新基准SA-Co上性能比之前系统提升至少2倍，在LVIS数据集上零样本掩码平均精度达到47.0，超越之前最佳纪录38.5[13] - 模型处理效率高，在单个H200 GPU上处理一张有超过100个物体的图像仅需30毫秒[13] - 针对PCS任务的固有模糊性问题，公司在数据收集、指标设计和模型训练等多个阶段进行了系统化处理，并允许用户通过添加优化提示来消除歧义[19] 数据、架构与基准测试 - 研究构建了人机协同数据引擎，成功标注了包含400万独特短语和5200万掩码的高质量训练数据，以及包含3800万短语和14亿掩码的合成数据集[20] - 模型采用双编码器-解码器Transformer架构，是一个具有图像级识别能力的检测器，通过与跟踪器和内存模块相结合可应用于视频领域[19] - 本文创建了用于PCS任务的Segment Anything with Concepts（SA-Co）基准测试，涵盖124K张图像和1.7K视频中的214K独特概念，其概念数量超过现有基准测试集50倍以上[24] 实验性能表现 - 在零样本设置下，SAM 3在LVIS掩码任务上表现显著更好，在开放词汇SA-Co/Gold数据集上的CGF分数是最强基线OWLv2的两倍[27][28] - 在ADE-847、PascalConcept-59和Cityscapes上进行的开放词汇语义分割实验显示，SAM 3的表现超越了强大的专家型基线APE[29] - 在小样本自适应方面，SAM 3在10-shot设置下实现了当前最优性能，超过了Gemini的上下文提示以及目标检测专家模型[30] - 在物体计数任务中，SAM 3不仅实现了良好的物体计数准确率（如CountBench上MAE为0.11，Acc为95.6），还提供了大多数MLLM无法提供的对象分割功能[32][33] - 在视频分割任务中，SAM 3的表现远超基线，在大多数基准测试中比SAM 2取得了显著改进，对于交互式图像分割任务，SAM 3在平均mIoU方面优于SAM 2[33][34][35]

Meta Platforms(US:META)

ICLR 2026惊现SAM 3，分割一切的下一步：让模型理解「概念」

机器之心· 2025-10-13 12:21

文章核心观点 - Meta公司据信发布了其“Segment Anything”系列模型的最新迭代SAM 3，该模型被定义为“可提示概念分割”，能够根据简单的名词短语或图像范例，在图像或视频中识别并分割出所有指定概念的实例，实现了从手动提示到概念理解的重大升级 [1][3][8][12] 技术进展与定义 - SAM 3的核心任务是“可提示概念分割”，其输入可以是文本（如“红苹果”）和/或图像范例，输出为每个匹配对象的实例掩码和语义掩码，并在视频中保持对象身份一致性 [8] - 与前代产品相比，SAM 3解决了更广泛的任务，即自动找出并分割输入内容中某一概念的所有实例，而SAM 1和SAM 2的重点在于视觉提示（如点、框），文本提示功能未被完全开发 [9][10] - 该模型专注于识别原子视觉概念，将输入文本限制为简单的名词短语，实现了扎根于视觉的极简语言理解 [8] 性能表现 - 在论文提出的新基准SA-Co上，SAM 3的性能比之前系统提升至少2倍，并在多个公开基准测试中达到SOTA水平，例如在LVIS数据集上，其零样本掩码平均精度达到47.0，超越之前最佳纪录38.5 [13] - 模型处理效率高，在单个H200 GPU上处理一张包含超过100个物体的图像仅需30毫秒 [14] - 在小样本自适应设置下，SAM 3在10-shot设置下实现了当前最优性能，超过了Gemini的上下文提示以及目标检测专家模型如gDino [30] 模型架构与数据 - SAM 3采用双编码器-解码器Transformer架构，是一个具有图像级识别能力的检测器，通过与跟踪器和内存模块结合可应用于视频领域 [20] - 研究构建了可扩展的人机协同数据引擎用于标注，成功标注了包含400万独特短语和5200万掩码的高质量训练数据，以及包含3800万短语和14亿掩码的合成数据集 [21] - 为PCS任务创建了SA-Co基准测试，涵盖124K张图像和1.7K视频中的214K独特概念，其概念数量超过现有基准测试集50倍以上 [25] 实验成果 - 在开放词汇SA-Co/Gold数据集上，SAM 3的CGF分数是最强基线OWLv2的两倍，在其他SA-Co子集上的提升更高 [28] - 在物体计数任务中，SAM 3实现了良好的准确率，其平均绝对误差在CountBench上为0.11，准确率达95.6%，并提供了大多数多模态大模型无法提供的对象分割功能 [33] - 在视频分割任务中，SAM 3的表现远超基线，在SA-V基准上CGF1达到27.8，pHOTA达到53.9，在大多数基准测试中比SAM 2有显著改进 [34][35][36]

Meta Platforms(US:META)

分割一切

可提示概念分割

原子视觉概念

Artificial Intelligence

Artificial Intelligence

SAM 3

SAM 1