ICLR神秘论文曝光,SAM3用「概念」看世界,重构视觉AI新范式
模型核心升级 - 模型从可提示视觉分割演进至可提示概念分割,能根据文字或图像提示识别并分割所有符合该概念的目标 [6][8][16] - 新功能PCS解决了前代模型仅能分割单个对象实例的局限,实现了对同一概念下所有对象的自动查找 [8][15] - 模型引入了专门处理概念模糊边界的歧义模块,并通过多专家标注和评估协议优化来应对概念歧义性 [14] 技术架构创新 - 采用双编码器-解码器Transformer架构,将检测器与跟踪器功能解耦,并引入新的存在性Token [16][18] - 在单张H200 GPU上仅需30毫秒即可在单张图片中识别上百个对象,视频场景下保持接近实时处理速度 [11] - 在LVIS数据集上的零样本分割准确度达到47.0,较此前最佳结果38.5有显著提升 [11] 数据引擎与训练集 - 构建了四阶段人机协同数据引擎,利用AI标注员将标注吞吐量翻倍,最终生成包含400万个唯一概念标签的高质量数据集 [11][19][22] - 形成了SA-Co数据集家族,包括520万张图像的SA-Co/HQ、全自动合成的SA-Co/SYN以及包含5.25万视频的SA-Co/VIDEO [26][27] - 训练数据集规模庞大,包含5200万掩码的高质量数据集和14亿掩码的合成数据集 [11][27] 性能基准与影响 - 在SA-Co基准测试中表现提升至少2倍,并在PVS基准上优于SAM 2 [11][28] - 新建立的SA-Co基准涵盖12.6万个样本、21.4万唯一短语及超过300万条标注,为模型评估提供全面标准 [28] - 该技术将图像分割从点选式操作提升到概念级理解,为下一代智能视觉和多模态系统奠定基础 [29]