Promptable Concept Segmentation
搜索文档
分割一切并不够,还要3D重建一切,SAM 3D来了
机器之心· 2025-11-20 10:07
文章核心观点 - Meta公司深夜发布其Segment Anything Model (SAM)系列的重大更新,包括SAM 3D和SAM 3 [1] - SAM 3D包含两个模型:专注于物体与场景重建的SAM 3D Objects和专注于人体形状与姿态估计的SAM 3D Body [2][5] - 公司同步开放了模型权重与推理代码,并推出全新平台Segment Anything Playground供用户体验 [7][8] SAM 3D Objects技术特点与性能 - 该模型提出全新技术路径,用于在单张自然图像中实现稳健、真实感强的3D重建与物体姿态估计,能从日常照片中重建物体的细致3D形状、纹理和场景布局 [11] - 核心创新在于通过强大的数据标注引擎突破真实世界3D数据难以大规模获取的瓶颈,并结合全新的多阶段3D训练流程 [15][22] - 借助数据引擎,公司在真实世界图像上总计标注近100万张图像,生成约314万个3D网格 [17] - 性能表现卓越:在3D形状指标F1 (0.01)上达到0.2339,显著高于对比模型(如Trellis + MegaPose的0.1436);在3D IoU指标上达到0.4254,优于Hunyuan3D1 + Foundation Pose的0.2937 [27] SAM 3D Body技术特点与性能 - 该模型旨在解决从单张图像中获得准确人体三维姿态与形体重建的长期挑战,即使图像中存在不寻常姿势、遮挡、多人同时出现等复杂情况也能保持高质量表现 [28] - 基于公司全新的开源3D网格格式Meta Momentum Human Rig (MHR),该格式通过将骨骼结构与软组织形体分离建模提供更强可解释性 [30] - 训练数据集包含约800万张图像,使其能够应对遮挡、罕见姿态和各种服装 [31] - 在多个3D基准测试中超越以往模型,例如在EMDB数据集上的MPJPE指标为61.7,优于4DHumans的98.0和NLF的68.4 [32] SAM 3技术特点与性能 - SAM 3引入可提示概念分割,模型能够根据文本提示或示例图像提示找到并分割某个概念的所有实例,克服了现有模型在面对细致、具体请求时的困难 [34][35] - 模型架构建立在公司以往AI进展之上,文本和图像编码器来自4月开源的Meta Perception Encoder,检测模块基于DETR [37] - 在概念分割性能上取得跨越式提升,将cgF1分数提升了两倍,优于基础模型和专业模型 [39] - 推理效率高:在H200 GPU上对单张包含超过100个检测目标的图像仅需30毫秒即可完成推理,在视频中约五个并发目标的情况下仍可保持近实时表现 [39]
Meta「分割一切」3.0曝光,技能语义分割加入概念提示,好好玩,要爆了
36氪· 2025-10-13 11:52
模型核心突破 - 第三代“分割一切”模型SAM 3引入可提示概念分割新范式,支持通过自然语言短语或图像示例在图片或视频中分割所有匹配概念的实例[3][6] - 新任务范式PCS具备开放性词汇、全实例分割、多模态提示和用户交互四大特性,突破前代模型仅能处理单个实例的限制[7][8] - 模型处理单张含100多个物体的图片仅需30毫秒,对视频具备近实时处理能力[5][20] 技术架构创新 - 检测器基于DETR架构,新增Presence Head模块将物体识别与定位任务解耦,提升多实例分割场景下的检测精度[9][11] - 通过可扩展数据引擎构建训练数据集,覆盖400万独特概念标签和5200万经过验证的掩码[12] - 专门提出SA-Co基准用于评估开放词汇分割任务,涵盖214K独特概念、124K图像和1.7K视频,概念覆盖范围为现有基准50倍以上[13] 性能表现 - 在LVIS数据集零样本分割任务中准确率达47.0,超越此前最优水平38.5[16] - 在SA-Co基准测试中表现优于基线方法至少2倍,在实例分割、边界框检测和语义分割任务中全面领先[16][17] - 视频分割任务在DAVIS17等数据集上J&F指标达78.4,优于SAM 2的75.2[18] 应用扩展潜力 - 与多模态大模型结合可处理复杂推理任务,如分割“坐着但没拿礼物盒的人”,在ReasonSeg任务中gIoU指标达76.0[19][20] - 在Omnilabel任务中AP指标达46.7,显示其处理复杂语言描述任务的强大能力[20] - 模型支持用户交互优化分割结果,为实际应用提供精细化调整空间[8]