Workflow
SAM 3D
icon
搜索文档
分割一切并不够,还要3D重建一切,SAM 3D来了
具身智能之心· 2025-11-21 08:04
更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 沉默后爆发? 编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 深夜,Meta 有了重大更新,接连上线 SAM 3D、SAM 3(Segment Anything Model,SAM)。 其中,SAM 3D 是 SAM 系列的最新成员,它将人们对图像的 3D 理解带入通俗易懂的世界,其包含两个模型: 这两个模型都具备强大且稳定的 SOTA(业界领先)性能,能够将静态的 2D 图像转化为细致的 3D 重建结果。 SAM 3D Objects:支持物体与场景重建 SAM 3D Body:专注于人体形状与姿态估计 SAM 3 可通过文本、示例和视觉提示,对图像和视频中的物体进行检测、分割与跟踪。 作为本次发布的一部分,Meta 同步开放了 SAM 3D、SAM 3 的模型权重与推理代码。 此外,Meta 还推出了一个全新平台 Segment Anything Playground,通过该平台,用户能轻松体验 SAM 3D、SAM 3 的能力。 接下 ...
Meta「分割一切」进入3D时代!图像分割结果直出3D,有遮挡也能复原
量子位· 2025-11-20 15:01
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI Meta的"分割一切",这回给 3D建模 带来了新的范式—— 现在,图像分割得到的切片,可以直接转换成3D模型了。 只要一张图,就能对里面的每个物体进行单独重建,有遮挡也不用怕。 这就是Meta MSL实验室刚刚发布的三维重建模型SAM 3D。 与此同时,MSL实验室之前投稿ICLR 2026的分割模型SAM 3,也终于露出了真容。 之前SAM 3就在一般图像分割的基础上增强了语义理解,论文一公布就备受关注。 现在又上新SAM 3D,许久不见出成果的Meta AI,总算是打出了一组王炸。 分割结果生成3D模型 SAM 3D家族包含两个新模型——SAM 3D Objects,用于物体和场景重建;以及SAM 3D Body,专注于人体,这两个模型均能够将静态2D 图像转换为精细的3D重建模型。 SAM 3D Objects能够从单张自然图像中实现基于视觉的3D重建和物体姿态估计。 即使存在小物体、间接视角和遮挡现象等障碍,依然可以进行重建,弥补了仅凭像素不足以完成重建的不足。 SAM 3D Objects的性能显著优于现有方法,能够很好地泛化到多种类型的图像 ...
分割一切并不够,还要3D重建一切,SAM 3D来了
机器之心· 2025-11-20 10:07
文章核心观点 - Meta公司深夜发布其Segment Anything Model (SAM)系列的重大更新,包括SAM 3D和SAM 3 [1] - SAM 3D包含两个模型:专注于物体与场景重建的SAM 3D Objects和专注于人体形状与姿态估计的SAM 3D Body [2][5] - 公司同步开放了模型权重与推理代码,并推出全新平台Segment Anything Playground供用户体验 [7][8] SAM 3D Objects技术特点与性能 - 该模型提出全新技术路径,用于在单张自然图像中实现稳健、真实感强的3D重建与物体姿态估计,能从日常照片中重建物体的细致3D形状、纹理和场景布局 [11] - 核心创新在于通过强大的数据标注引擎突破真实世界3D数据难以大规模获取的瓶颈,并结合全新的多阶段3D训练流程 [15][22] - 借助数据引擎,公司在真实世界图像上总计标注近100万张图像,生成约314万个3D网格 [17] - 性能表现卓越:在3D形状指标F1 (0.01)上达到0.2339,显著高于对比模型(如Trellis + MegaPose的0.1436);在3D IoU指标上达到0.4254,优于Hunyuan3D1 + Foundation Pose的0.2937 [27] SAM 3D Body技术特点与性能 - 该模型旨在解决从单张图像中获得准确人体三维姿态与形体重建的长期挑战,即使图像中存在不寻常姿势、遮挡、多人同时出现等复杂情况也能保持高质量表现 [28] - 基于公司全新的开源3D网格格式Meta Momentum Human Rig (MHR),该格式通过将骨骼结构与软组织形体分离建模提供更强可解释性 [30] - 训练数据集包含约800万张图像,使其能够应对遮挡、罕见姿态和各种服装 [31] - 在多个3D基准测试中超越以往模型,例如在EMDB数据集上的MPJPE指标为61.7,优于4DHumans的98.0和NLF的68.4 [32] SAM 3技术特点与性能 - SAM 3引入可提示概念分割,模型能够根据文本提示或示例图像提示找到并分割某个概念的所有实例,克服了现有模型在面对细致、具体请求时的困难 [34][35] - 模型架构建立在公司以往AI进展之上,文本和图像编码器来自4月开源的Meta Perception Encoder,检测模块基于DETR [37] - 在概念分割性能上取得跨越式提升,将cgF1分数提升了两倍,优于基础模型和专业模型 [39] - 推理效率高:在H200 GPU上对单张包含超过100个检测目标的图像仅需30毫秒即可完成推理,在视频中约五个并发目标的情况下仍可保持近实时表现 [39]