SAM 3
搜索文档
分割一切并不够,还要3D重建一切,SAM 3D来了
具身智能之心· 2025-11-21 08:04
Meta SAM系列技术更新核心观点 - Meta发布SAM 3D和SAM 3两项重大更新,将图像3D理解与概念分割能力提升至新水平[1] - 两项新技术均具备业界领先的SOTA性能,并同步开放模型权重与推理代码[2][7] - 公司推出Segment Anything Playground平台,方便用户体验新模型能力[8] SAM 3D技术细节 - SAM 3D包含两个模型:SAM 3D Objects支持物体与场景重建,SAM 3D Body专注于人体形状与姿态估计[4] - SAM 3D Objects能从单张自然图像实现稳健、真实感强的3D重建与物体姿态估计,生成带姿态信息的3D模型[11][15] - 技术核心创新在于构建可扩展的数据引擎,通过标注近100万张图像生成约314万个3D网格,突破真实世界3D数据获取瓶颈[20][26] - SAM 3D Body基于全新开源3D网格格式MHR,构建于Transformer架构,使用包含约800万张图像的数据集训练,能处理遮挡、罕见姿态等复杂情况[30][31][33] SAM 3技术细节 - SAM 3引入可提示概念分割能力,能根据文本或图像提示找到并分割某个概念的所有实例,克服现有模型在细致请求下的困难[38][40] - 模型架构建立在Meta Perception Encoder等多项AI进展之上,检测模块基于DETR,跟踪模块基于SAM 2的memory bank技术[42] - 性能取得跨越式提升,将cgF1分数提升两倍,优于Gemini 2.5 Pro等基础模型和专业模型[44] - 推理效率极高,在H200 GPU上对单张含超100个检测目标的图像仅需30毫秒,视频中多目标情况下仍可保持近实时表现[44]
AI视觉GPT时刻,Meta新模型一键“分割世界”,网友直呼太疯狂了
36氪· 2025-11-20 18:04
产品发布核心 - Meta公司宣布推出全新的SAM 3D模型家族,包含用于物体和场景重建的SAM 3D Objects以及用于人体和体型估计的SAM 3D Body [1] - 同日,此前引发热议的SAM 3图像分割模型也正式发布,其亮点是引入了“可提示概念分割”的新功能 [1] - 该系列模型能够使用户点击图像中的元素后,直接从2D图像中扣出一个可360度旋转且基本无破绽的3D模型 [1] SAM 3D Objects模型技术细节 - 通过强大的数据注释引擎,在大规模自然图像上实现了3D物体的精细标注,涉及近百万张图像,生成超过314万个网格模型 [7] - 结合了“众包+专家”的数据标注模式,并借鉴大型语言模型的训练理念,将合成数据学习重新定义为“三维预训练” [9] - 在一对一的人类偏好测试中以5:1的优势战胜现有领先模型,并能结合扩散捷径和优化算法在几秒钟内完成全纹理3D重建 [10] - 模型当前输出分辨率有限,复杂物体细节可能出现缺失,且物体布局预测仍以单个物体为主 [11] SAM 3D Body模型技术细节 - 专注于从单张图像中精确估算人体的三维姿态和形状,支持通过分割掩码、二维关键点等提示输入引导模型预测 [12] - 核心是一种名为Meta Momentum Human Rig(MHR)的开源3D网格格式,将人体骨骼结构与软组织形状分离 [12] - 研究团队整合了数十亿张图像等数据,通过自动化数据引擎筛选出约800万张高质量训练样本 [13] - 当前模型主要针对单人处理,尚未支持多人或人与物体的交互预测,手部姿势估计精度也有待提升 [16] SAM 3模型技术细节 - 是一款统一模型,能够基于文本、示例图像或视觉提示实现对象的检测、分割和跟踪 [18] - 通过“可提示概念分割”功能,可以识别复杂细微的概念,如“条纹红伞”或“手中未持礼盒的坐着的人” [19] - 在SA-Co基准上的概念分割性能实现了约100%的提升,在用户偏好测试中相较最强竞品OWLv2更受青睐,比例达到约3:1 [19] - 采用人类与AI协同的数据引擎,AI注释者能提升标注速度(负样本快约400%,正样本快约36%)并自动筛选简单样本 [20] 性能与基准测试 - SAM 3D Objects在3D形状指标F1 (0.01)上达到0.2339,显著高于对比模型(如Trellis + MegaPose的0.1436) [10] - SAM 3具有超快的推理速度,在单张英伟达H200 GPU上能在30毫秒左右识别一张包含超过100个可检测物体的图片 [3] - SAM 3D Body在多个三维人体基准测试中取得了显著优势,准确性和稳健性均领先于以往模型 [13] 商业化与开源 - Meta已开始将SAM 3D Objects和SAM 3用于商业应用,例如Facebook Market的“房间视图”功能,帮助用户购买家具前预览效果 [6] - SAM 3D系列模型和SAM 3的相关训练评估数据、基准、模型检查点、推理代码等均已开源 [6] - MHR参数化人体模型在商业许可下可供使用,使Meta的技术如Codec Avatars等得以落地应用 [16]
Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原
量子位· 2025-11-20 15:01
文章核心观点 - Meta AI发布SAM 3D模型,能够从单张2D图像直接生成精细的3D模型,代表了3D建模领域的新范式[1][4][7] - 同时发布的SAM 3模型在图像分割基础上增强了语义理解能力,支持通过文本或示例提示进行开放词汇的概念分割[5][6][23] - 两个模型系列在各自领域的多项基准测试中均取得了显著优于现有方法的性能,达到SOTA水平[13][17][36] SAM 3D模型技术特点与性能 - SAM 3D包含两个专用模型:SAM 3D Objects用于物体和场景重建,SAM 3D Body专注于人体建模[8] - SAM 3D Objects能够处理小物体、间接视角和遮挡等复杂情况,从单张自然图像实现3D重建和物体姿态估计[10][11] - 在人类用户对比测试中,SAM 3D Objects的胜率至少达到其他领先模型的5倍[14] - 具体性能指标显示显著优势:F1分数达0.2339,Chamfer距离为0.0408,3D IoU为0.4254,ADD-S@0.1为0.7232[15] - SAM 3D Body在复杂情况下表现优异,MPJPE指标为61.7,PVE为60.3,在多个数据集上的PCK指标分别为68.0和75.4[18] SAM 3模型技术突破 - 突破传统分割模型固定标签集的限制,引入可提示概念分割功能,支持通过文本或示例提示定义概念[21][23][24] - 能够处理细微概念如"红色条纹伞",并通过文本指令或选中示例物体来查找分割所有同类物体[22][26][31] - 在LVIS数据集的零样本分割任务中准确率达到47.0,比此前SOTA的38.5提升显著[37] - 在新的SA-Co基准测试中,表现至少比基线方法强2倍[38] - 在视频分割任务中性能优于SAM 2,在多个数据集上的J&F指标达到78.4至89.6[40] 模型架构与实现方法 - SAM 3基于共享的Perception Encoder视觉骨干网络,服务检测器和追踪器模块[41][43] - 创新设计Presence Head解决开放词汇检测中的幻觉问题,解耦识别与定位任务[45] - SAM 3D Objects采用两阶段生成模型:12亿参数流匹配Transformer构建几何,稀疏潜在流匹配细化纹理[48][49][51] - 通过model-in-the-loop数据引擎低成本获取图像-3D配对数据,人类从8个候选中选择最佳匹配[53][54] - SAM 3D Body采用Momentum Human Rig表示法,双路解码器设计分别处理全身和手部细节[55][57][61] 行业影响与数据集 - Meta与艺术家合作构建SAM 3D艺术家物体数据集SA-3DAO,用于评估物理世界图像三维重建能力[20] - 创建SA-Co基准测试评估大词汇量检测和分割性能,要求识别更大概念词汇量[33][34] - 模型能够很好泛化到多种类型图像,支持密集场景重建,标志着基础模型具身化的进展[13][60]
分割一切并不够,还要3D重建一切,SAM 3D来了
机器之心· 2025-11-20 10:07
文章核心观点 - Meta公司深夜发布其Segment Anything Model (SAM)系列的重大更新,包括SAM 3D和SAM 3 [1] - SAM 3D包含两个模型:专注于物体与场景重建的SAM 3D Objects和专注于人体形状与姿态估计的SAM 3D Body [2][5] - 公司同步开放了模型权重与推理代码,并推出全新平台Segment Anything Playground供用户体验 [7][8] SAM 3D Objects技术特点与性能 - 该模型提出全新技术路径,用于在单张自然图像中实现稳健、真实感强的3D重建与物体姿态估计,能从日常照片中重建物体的细致3D形状、纹理和场景布局 [11] - 核心创新在于通过强大的数据标注引擎突破真实世界3D数据难以大规模获取的瓶颈,并结合全新的多阶段3D训练流程 [15][22] - 借助数据引擎,公司在真实世界图像上总计标注近100万张图像,生成约314万个3D网格 [17] - 性能表现卓越:在3D形状指标F1 (0.01)上达到0.2339,显著高于对比模型(如Trellis + MegaPose的0.1436);在3D IoU指标上达到0.4254,优于Hunyuan3D1 + Foundation Pose的0.2937 [27] SAM 3D Body技术特点与性能 - 该模型旨在解决从单张图像中获得准确人体三维姿态与形体重建的长期挑战,即使图像中存在不寻常姿势、遮挡、多人同时出现等复杂情况也能保持高质量表现 [28] - 基于公司全新的开源3D网格格式Meta Momentum Human Rig (MHR),该格式通过将骨骼结构与软组织形体分离建模提供更强可解释性 [30] - 训练数据集包含约800万张图像,使其能够应对遮挡、罕见姿态和各种服装 [31] - 在多个3D基准测试中超越以往模型,例如在EMDB数据集上的MPJPE指标为61.7,优于4DHumans的98.0和NLF的68.4 [32] SAM 3技术特点与性能 - SAM 3引入可提示概念分割,模型能够根据文本提示或示例图像提示找到并分割某个概念的所有实例,克服了现有模型在面对细致、具体请求时的困难 [34][35] - 模型架构建立在公司以往AI进展之上,文本和图像编码器来自4月开源的Meta Perception Encoder,检测模块基于DETR [37] - 在概念分割性能上取得跨越式提升,将cgF1分数提升了两倍,优于基础模型和专业模型 [39] - 推理效率高:在H200 GPU上对单张包含超过100个检测目标的图像仅需30毫秒即可完成推理,在视频中约五个并发目标的情况下仍可保持近实时表现 [39]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
具身智能之心· 2025-10-14 08:02
SAM 3 技术发布与背景 - 一篇匿名论文“SAM 3: SEGMENT ANYTHING WITH CONCEPTS”登陆ICLR 2026,引发广泛关注,外界普遍猜测其为Meta公司“Segment Anything”系列的正式续作[3][5] - SAM系列发展节奏清晰,SAM 1于2023年4月发表并获得ICCV最佳论文提名,SAM 2于2024年7月发表,SAM 3的登场符合一年一度的更新节奏[6][7][8] - 该工作被定义为一个更高级的任务:可提示概念分割(Promptable Concept Segmentation, PCS),其核心是识别原子视觉概念[9] SAM 3 核心技术突破 - SAM 3实现了从“手动一个个点出来”到“告诉模型一个概念,它帮你全部找出来”的升级,用户可通过简短名词短语、图像范例或两者组合来指定视觉概念并分割所有实例[9][12][13] - 模型在论文提出的新基准SA-Co上性能比之前系统提升至少2倍,在LVIS数据集上零样本掩码平均精度达到47.0,超越之前最佳纪录38.5[13] - 模型处理效率高,在单个H200 GPU上处理一张有超过100个物体的图像仅需30毫秒[13] - 针对PCS任务的固有模糊性问题,公司在数据收集、指标设计和模型训练等多个阶段进行了系统化处理,并允许用户通过添加优化提示来消除歧义[19] 数据、架构与基准测试 - 研究构建了人机协同数据引擎,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集[20] - 模型采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块相结合可应用于视频领域[19] - 本文创建了用于PCS任务的Segment Anything with Concepts(SA-Co)基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上[24] 实验性能表现 - 在零样本设置下,SAM 3在LVIS掩码任务上表现显著更好,在开放词汇SA-Co/Gold数据集上的CGF分数是最强基线OWLv2的两倍[27][28] - 在ADE-847、PascalConcept-59和Cityscapes上进行的开放词汇语义分割实验显示,SAM 3的表现超越了强大的专家型基线APE[29] - 在小样本自适应方面,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型[30] - 在物体计数任务中,SAM 3不仅实现了良好的物体计数准确率(如CountBench上MAE为0.11,Acc为95.6),还提供了大多数MLLM无法提供的对象分割功能[32][33] - 在视频分割任务中,SAM 3的表现远超基线,在大多数基准测试中比SAM 2取得了显著改进,对于交互式图像分割任务,SAM 3在平均mIoU方面优于SAM 2[33][34][35]
ICLR神秘论文曝光,SAM3用「概念」看世界,重构视觉AI新范式
36氪· 2025-10-14 07:57
模型核心升级 - 模型从可提示视觉分割演进至可提示概念分割,能根据文字或图像提示识别并分割所有符合该概念的目标 [6][8][16] - 新功能PCS解决了前代模型仅能分割单个对象实例的局限,实现了对同一概念下所有对象的自动查找 [8][15] - 模型引入了专门处理概念模糊边界的歧义模块,并通过多专家标注和评估协议优化来应对概念歧义性 [14] 技术架构创新 - 采用双编码器-解码器Transformer架构,将检测器与跟踪器功能解耦,并引入新的存在性Token [16][18] - 在单张H200 GPU上仅需30毫秒即可在单张图片中识别上百个对象,视频场景下保持接近实时处理速度 [11] - 在LVIS数据集上的零样本分割准确度达到47.0,较此前最佳结果38.5有显著提升 [11] 数据引擎与训练集 - 构建了四阶段人机协同数据引擎,利用AI标注员将标注吞吐量翻倍,最终生成包含400万个唯一概念标签的高质量数据集 [11][19][22] - 形成了SA-Co数据集家族,包括520万张图像的SA-Co/HQ、全自动合成的SA-Co/SYN以及包含5.25万视频的SA-Co/VIDEO [26][27] - 训练数据集规模庞大,包含5200万掩码的高质量数据集和14亿掩码的合成数据集 [11][27] 性能基准与影响 - 在SA-Co基准测试中表现提升至少2倍,并在PVS基准上优于SAM 2 [11][28] - 新建立的SA-Co基准涵盖12.6万个样本、21.4万唯一短语及超过300万条标注,为模型评估提供全面标准 [28] - 该技术将图像分割从点选式操作提升到概念级理解,为下一代智能视觉和多模态系统奠定基础 [29]
腾讯研究院AI速递 20251014
腾讯研究院· 2025-10-14 01:53
OpenAI芯片战略合作 - OpenAI与博通达成战略合作,将部署100亿瓦OpenAI设计的定制AI芯片,计划于2026年下半年开始部署并于2029年底完成 [1] - 这是OpenAI一个月内与第三家芯片巨头的交易,此前已宣布获得英伟达1000亿美元投资以及与AMD达成的60亿瓦GPU部署协议 [1] - 双方过去18个月一直在设计新芯片,消息公布后博通股价一度涨超10% [1] 谷歌Gemini 3.0技术更新 - 谷歌Gemini 3.0预计10月22日发布,内测显示其前端开发能力强大,可一键生成网页、游戏、原创音乐等 [2] - 模型采用MoE架构,超万亿参数,每次查询激活150-200亿参数,上下文长度从100万跃升至数百万token,可处理整本书和代码库 [2] - 2025年9月Gemini环比增长率达46.24%,在特定测试中表现断档领先 [2] LiblibAI平台升级 - LiblibAI(哩布哩布)2.0升级接入海螺、通义万相、可灵、Pixverse、vidu等10多个热门视频模型和大量生图模型 [3] - 新增视频特效一键同款功能,接入Midjourney V7、Qwen-image、Seedream 4.0等常用生图模型,支持图生视频无缝切换 [3] - 增加资产管理菜单和AI工具箱入口,集合高清放大、抠图、产品精修等大量模型工作流,提供一站式AI体验 [3] Mamba-3架构创新 - Mamba-3已进入ICLR 2026盲审,采用梯形规则离散化、复数状态空间、多输入多输出设计三大创新 [4] - 通过引入复数隐状态实现"钟摆"记忆能够处理周期模式,MIMO设计显著提高算术强度使GPU满负荷运行 [5] - 在超长上下文信息检索测试中表现优异,推理延迟大幅降低,适合长文本处理、实时交互和边缘计算 [5] SAM 3分割技术突破 - SAM 3论文登陆ICLR 2026,实现可提示概念分割,用户通过简单名词短语或图像范例即可分割所有匹配实例 [6] - 在SA-Co基准上性能比之前系统提升至少2倍,在LVIS数据集零样本掩码平均精度达47.0,超越之前38.5的纪录 [6] - 采用双编码器-解码器Transformer架构,构建包含400万独特短语和5200万掩码的高质量训练数据,单H200 GPU处理100+物体图像仅需30毫秒 [6] 谷歌ReasoningBank记忆框架 - 谷歌提出ReasoningBank创新记忆框架,从智能体成功和失败经验中提炼记忆项形成闭环自我进化系统 [7] - 引入记忆感知的测试时扩展通过并行和顺序设置生成多样探索,使记忆合成更具普遍性 [7] - 在多项基准测试中,ReasoningBank有效性相对提高达34.2%,交互步骤减少16.0% [7] 大模型科学推理能力 - GPT-5和Gemini 2.5 Pro在国际天文学和天体物理学奥林匹克竞赛中均获金牌成绩,GPT-5在理论考试平均得分84.2% [8] - 两大模型在理论考试表现优于当届最佳学生,但在几何/空间问题上准确率(49-78%)明显低于物理/数学问题(67-91%) [8] - 标志着AI在天文、天体物理等多科学领域展现出接近顶尖人类水平的综合能力 [8] 人形机器人技术进展 - 宇树G1机器人展示空中翻转、连续后空翻、单手侧后翻等高难度动作,并演示功夫拳法和顶膝动作 [10] - 公司计划今年下半年推出身高1.8米的人形机器人,已申请近10项人形机器人相关专利 [10] - 今年上半年国内机器人行业平均增长率达50%-100%,算法升级后机器人理论上可完成各种舞蹈和武术动作 [10] 苹果智能眼镜产品规划 - 苹果智能眼镜可能与Mac配对时运行完整visionOS,与iPhone配对时切换至轻便移动界面,计划2026-2027年发布 [11] - 公司已放弃开发"Vision Air"头戴设备,将工程师精力集中转向智能眼镜开发,直接对标Meta的Ray-Ban Display [11] - 第一代产品将不配备显示功能,但包含音乐扬声器、摄像头、语音控制和可能的健康功能 [11] OpenAI发展现状与展望 - Sam Altman表示AI会改变工作性质但不会消灭真正的工作,未来工作形式可能更轻松 [12] - GPT-6开发重点是更智能的模型、更长上下文和更好记忆能力,Codex已能完成整天任务 [12] - OpenAI当前每周活跃用户达8亿,团队正在研发全新语音交互设备但短期内不会透露 [12]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
机器之心· 2025-10-13 12:21
文章核心观点 - Meta公司据信发布了其“Segment Anything”系列模型的最新迭代SAM 3,该模型被定义为“可提示概念分割”,能够根据简单的名词短语或图像范例,在图像或视频中识别并分割出所有指定概念的实例,实现了从手动提示到概念理解的重大升级 [1][3][8][12] 技术进展与定义 - SAM 3的核心任务是“可提示概念分割”,其输入可以是文本(如“红苹果”)和/或图像范例,输出为每个匹配对象的实例掩码和语义掩码,并在视频中保持对象身份一致性 [8] - 与前代产品相比,SAM 3解决了更广泛的任务,即自动找出并分割输入内容中某一概念的所有实例,而SAM 1和SAM 2的重点在于视觉提示(如点、框),文本提示功能未被完全开发 [9][10] - 该模型专注于识别原子视觉概念,将输入文本限制为简单的名词短语,实现了扎根于视觉的极简语言理解 [8] 性能表现 - 在论文提出的新基准SA-Co上,SAM 3的性能比之前系统提升至少2倍,并在多个公开基准测试中达到SOTA水平,例如在LVIS数据集上,其零样本掩码平均精度达到47.0,超越之前最佳纪录38.5 [13] - 模型处理效率高,在单个H200 GPU上处理一张包含超过100个物体的图像仅需30毫秒 [14] - 在小样本自适应设置下,SAM 3在10-shot设置下实现了当前最优性能,超过了Gemini的上下文提示以及目标检测专家模型如gDino [30] 模型架构与数据 - SAM 3采用双编码器-解码器Transformer架构,是一个具有图像级识别能力的检测器,通过与跟踪器和内存模块结合可应用于视频领域 [20] - 研究构建了可扩展的人机协同数据引擎用于标注,成功标注了包含400万独特短语和5200万掩码的高质量训练数据,以及包含3800万短语和14亿掩码的合成数据集 [21] - 为PCS任务创建了SA-Co基准测试,涵盖124K张图像和1.7K视频中的214K独特概念,其概念数量超过现有基准测试集50倍以上 [25] 实验成果 - 在开放词汇SA-Co/Gold数据集上,SAM 3的CGF分数是最强基线OWLv2的两倍,在其他SA-Co子集上的提升更高 [28] - 在物体计数任务中,SAM 3实现了良好的准确率,其平均绝对误差在CountBench上为0.11,准确率达95.6%,并提供了大多数多模态大模型无法提供的对象分割功能 [33] - 在视频分割任务中,SAM 3的表现远超基线,在SA-V基准上CGF1达到27.8,pHOTA达到53.9,在大多数基准测试中比SAM 2有显著改进 [34][35][36]
Meta「分割一切」3.0曝光,技能语义分割加入概念提示,好好玩,要爆了
36氪· 2025-10-13 11:52
模型核心突破 - 第三代“分割一切”模型SAM 3引入可提示概念分割新范式,支持通过自然语言短语或图像示例在图片或视频中分割所有匹配概念的实例[3][6] - 新任务范式PCS具备开放性词汇、全实例分割、多模态提示和用户交互四大特性,突破前代模型仅能处理单个实例的限制[7][8] - 模型处理单张含100多个物体的图片仅需30毫秒,对视频具备近实时处理能力[5][20] 技术架构创新 - 检测器基于DETR架构,新增Presence Head模块将物体识别与定位任务解耦,提升多实例分割场景下的检测精度[9][11] - 通过可扩展数据引擎构建训练数据集,覆盖400万独特概念标签和5200万经过验证的掩码[12] - 专门提出SA-Co基准用于评估开放词汇分割任务,涵盖214K独特概念、124K图像和1.7K视频,概念覆盖范围为现有基准50倍以上[13] 性能表现 - 在LVIS数据集零样本分割任务中准确率达47.0,超越此前最优水平38.5[16] - 在SA-Co基准测试中表现优于基线方法至少2倍,在实例分割、边界框检测和语义分割任务中全面领先[16][17] - 视频分割任务在DAVIS17等数据集上J&F指标达78.4,优于SAM 2的75.2[18] 应用扩展潜力 - 与多模态大模型结合可处理复杂推理任务,如分割“坐着但没拿礼物盒的人”,在ReasonSeg任务中gIoU指标达76.0[19][20] - 在Omnilabel任务中AP指标达46.7,显示其处理复杂语言描述任务的强大能力[20] - 模型支持用户交互优化分割结果,为实际应用提供精细化调整空间[8]
Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了
量子位· 2025-10-13 11:35
模型概述与核心突破 - 第三代“分割一切”模型SAM 3已投稿ICLR 2026,支持基于短语、图像示例等概念提示的多实例分割任务[3][4][10] - 新模型核心突破在于引入可提示概念分割(PCS)范式,能听懂人话并分割图像/视频中所有匹配提示概念的实例,例如输入“条纹猫”即可找出所有带条纹的猫[6][7][11][12] - SAM 3解决了前代模型只能处理单个实例的局限,实现了全实例分割,并在视频中保持不同帧之间的身份一致性[10][17] 技术架构创新 - 检测器基于DETR架构,能根据语言和视觉提示生成实例级检测结果,并引入Presence Head模块解耦物体识别和定位任务以避免冲突[15][16] - 新架构支持开放性词汇,不局限于预定义类别,允许用户输入任意名词短语作为分割目标,并支持文本、视觉及两者结合的多模态提示[17] - 模型具备用户交互能力,允许通过交互对分割结果进行精细优化[17] 数据与基准测试 - 研究团队构建了可扩展数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集,通过多阶段流程提升数据多样性和难度[19][20] - 人类与大语言模型相互检查以提升标注效率和质量[21] - 提出了SA-Co基准,包含214K独特概念、124K图像和1.7K视频,概念覆盖范围是现有基准的50倍以上,用于评估开放词汇分割性能[23][24] 性能表现 - 在LVIS数据集零样本分割任务中准确率达到47.0,比此前SOTA的38.5提升显著[28] - 在SA-Co基准测试中表现比基线方法强至少2倍,在实例分割、边界框检测和语义分割等多个任务上刷新SOTA[29][30] - 在视频PVS任务中性能优于SAM 2,在H200 GPU上处理含100多个实体的单张图像仅需30毫秒[30][31][35] 应用拓展与局限性 - 与多模态大模型结合可解决复杂任务,如分割“坐着但没拿礼物盒的人”,组合效果优于专门推理分割模型且无需专门训练数据[32][33][34] - 模型对语言处理局限于简单短语提示,不支持复杂语言表达、生成和理解能力[26] - 难以通过零样本方式泛化到医疗图像、热成像等细分领域,多目标视频分割场景下实时性能会下降[36][37]