Workflow
SAM 3D系列模型
icon
搜索文档
AI视觉GPT时刻,Meta新模型一键“分割世界”,网友直呼太疯狂了
36氪· 2025-11-20 18:04
产品发布核心 - Meta公司宣布推出全新的SAM 3D模型家族,包含用于物体和场景重建的SAM 3D Objects以及用于人体和体型估计的SAM 3D Body [1] - 同日,此前引发热议的SAM 3图像分割模型也正式发布,其亮点是引入了“可提示概念分割”的新功能 [1] - 该系列模型能够使用户点击图像中的元素后,直接从2D图像中扣出一个可360度旋转且基本无破绽的3D模型 [1] SAM 3D Objects模型技术细节 - 通过强大的数据注释引擎,在大规模自然图像上实现了3D物体的精细标注,涉及近百万张图像,生成超过314万个网格模型 [7] - 结合了“众包+专家”的数据标注模式,并借鉴大型语言模型的训练理念,将合成数据学习重新定义为“三维预训练” [9] - 在一对一的人类偏好测试中以5:1的优势战胜现有领先模型,并能结合扩散捷径和优化算法在几秒钟内完成全纹理3D重建 [10] - 模型当前输出分辨率有限,复杂物体细节可能出现缺失,且物体布局预测仍以单个物体为主 [11] SAM 3D Body模型技术细节 - 专注于从单张图像中精确估算人体的三维姿态和形状,支持通过分割掩码、二维关键点等提示输入引导模型预测 [12] - 核心是一种名为Meta Momentum Human Rig(MHR)的开源3D网格格式,将人体骨骼结构与软组织形状分离 [12] - 研究团队整合了数十亿张图像等数据,通过自动化数据引擎筛选出约800万张高质量训练样本 [13] - 当前模型主要针对单人处理,尚未支持多人或人与物体的交互预测,手部姿势估计精度也有待提升 [16] SAM 3模型技术细节 - 是一款统一模型,能够基于文本、示例图像或视觉提示实现对象的检测、分割和跟踪 [18] - 通过“可提示概念分割”功能,可以识别复杂细微的概念,如“条纹红伞”或“手中未持礼盒的坐着的人” [19] - 在SA-Co基准上的概念分割性能实现了约100%的提升,在用户偏好测试中相较最强竞品OWLv2更受青睐,比例达到约3:1 [19] - 采用人类与AI协同的数据引擎,AI注释者能提升标注速度(负样本快约400%,正样本快约36%)并自动筛选简单样本 [20] 性能与基准测试 - SAM 3D Objects在3D形状指标F1 (0.01)上达到0.2339,显著高于对比模型(如Trellis + MegaPose的0.1436) [10] - SAM 3具有超快的推理速度,在单张英伟达H200 GPU上能在30毫秒左右识别一张包含超过100个可检测物体的图片 [3] - SAM 3D Body在多个三维人体基准测试中取得了显著优势,准确性和稳健性均领先于以往模型 [13] 商业化与开源 - Meta已开始将SAM 3D Objects和SAM 3用于商业应用,例如Facebook Market的“房间视图”功能,帮助用户购买家具前预览效果 [6] - SAM 3D系列模型和SAM 3的相关训练评估数据、基准、模型检查点、推理代码等均已开源 [6] - MHR参数化人体模型在商业许可下可供使用,使Meta的技术如Codec Avatars等得以落地应用 [16]