SAM 3

搜索文档
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
具身智能之心· 2025-10-14 08:02
编辑丨 机器之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要的。 说出概念,SAM 3 就明白你在说什么,并在所有出现的位置精确描绘出边界。 Meta 的「分割一切」再上新? 9 月 12 日,一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陆 ICLR 2026,引发网友广泛关注。 大家纷纷猜测,这篇论文出自 Meta,毕竟文风和 Meta 以前发布的论文非常相似。再加上 SAM 与 SAM 2 均由 Meta 推出,这让外界几乎可以确定,SAM 3 就是 Meta「Segment Anything」系列的正式续作。 即将文本和 / 或图像范例作为输入,为每一个与该概念匹配的对象预测实例掩码和语义掩码,同时在视频帧之间保持对象身份的一致性。该工作的重点是识别原子 视觉概念 (atomic visual concepts),因此 将输入文本限制为简单的名词短语,例如「红苹果」或「条纹猫」,只要描述你想要的东西 ...
ICLR神秘论文曝光,SAM3用「概念」看世界,重构视觉AI新范式
36氪· 2025-10-14 07:57
2023年4月,Meta AI发布了首个图像分割基础模型Segment Anything Model(SAM)。 SAM的目标是让计算机「能分割任何东西」。 2024年7月,Meta推出SAM 2,将模型扩展到视频分割并显著提升性能。 ICLR 2026会议盲审论文《SAM3:用概念分割一切》https://openreview.net/pdf?id=r35clVtGzw 论文《SAM 3: Segment Anything with Concepts》,也许可以带我们解锁这次SAM新升级的内幕。 该论文目前处于ICLR 2026会议盲审阶段,作者暂未公布身份,但从题目中不难推测其内容为SAM第三代的升级。 SAM3最大的突破在于它强调「基于概念的分割」,即不只是按像素或实例,而是可能按「语义概念」来理解和分割图像: 如今,SAM模型即将迎来第三次升级。 只要给出一个提示,比如「黄色校车」或一张参考图片,SAM 3就能在不同场景里找到并分割出对应的物体。 该功能被定义为可提示的概念分割(Promptable Concept Segmentation,PCS)。 为了支撑PCS,研究团队还构建了一个可扩展的数据 ...
腾讯研究院AI速递 20251014
腾讯研究院· 2025-10-14 01:53
OpenAI芯片战略合作 - OpenAI与博通达成战略合作,将部署100亿瓦OpenAI设计的定制AI芯片,计划于2026年下半年开始部署并于2029年底完成 [1] - 这是OpenAI一个月内与第三家芯片巨头的交易,此前已宣布获得英伟达1000亿美元投资以及与AMD达成的60亿瓦GPU部署协议 [1] - 双方过去18个月一直在设计新芯片,消息公布后博通股价一度涨超10% [1] 谷歌Gemini 3.0技术更新 - 谷歌Gemini 3.0预计10月22日发布,内测显示其前端开发能力强大,可一键生成网页、游戏、原创音乐等 [2] - 模型采用MoE架构,超万亿参数,每次查询激活150-200亿参数,上下文长度从100万跃升至数百万token,可处理整本书和代码库 [2] - 2025年9月Gemini环比增长率达46.24%,在特定测试中表现断档领先 [2] LiblibAI平台升级 - LiblibAI(哩布哩布)2.0升级接入海螺、通义万相、可灵、Pixverse、vidu等10多个热门视频模型和大量生图模型 [3] - 新增视频特效一键同款功能,接入Midjourney V7、Qwen-image、Seedream 4.0等常用生图模型,支持图生视频无缝切换 [3] - 增加资产管理菜单和AI工具箱入口,集合高清放大、抠图、产品精修等大量模型工作流,提供一站式AI体验 [3] Mamba-3架构创新 - Mamba-3已进入ICLR 2026盲审,采用梯形规则离散化、复数状态空间、多输入多输出设计三大创新 [4] - 通过引入复数隐状态实现"钟摆"记忆能够处理周期模式,MIMO设计显著提高算术强度使GPU满负荷运行 [5] - 在超长上下文信息检索测试中表现优异,推理延迟大幅降低,适合长文本处理、实时交互和边缘计算 [5] SAM 3分割技术突破 - SAM 3论文登陆ICLR 2026,实现可提示概念分割,用户通过简单名词短语或图像范例即可分割所有匹配实例 [6] - 在SA-Co基准上性能比之前系统提升至少2倍,在LVIS数据集零样本掩码平均精度达47.0,超越之前38.5的纪录 [6] - 采用双编码器-解码器Transformer架构,构建包含400万独特短语和5200万掩码的高质量训练数据,单H200 GPU处理100+物体图像仅需30毫秒 [6] 谷歌ReasoningBank记忆框架 - 谷歌提出ReasoningBank创新记忆框架,从智能体成功和失败经验中提炼记忆项形成闭环自我进化系统 [7] - 引入记忆感知的测试时扩展通过并行和顺序设置生成多样探索,使记忆合成更具普遍性 [7] - 在多项基准测试中,ReasoningBank有效性相对提高达34.2%,交互步骤减少16.0% [7] 大模型科学推理能力 - GPT-5和Gemini 2.5 Pro在国际天文学和天体物理学奥林匹克竞赛中均获金牌成绩,GPT-5在理论考试平均得分84.2% [8] - 两大模型在理论考试表现优于当届最佳学生,但在几何/空间问题上准确率(49-78%)明显低于物理/数学问题(67-91%) [8] - 标志着AI在天文、天体物理等多科学领域展现出接近顶尖人类水平的综合能力 [8] 人形机器人技术进展 - 宇树G1机器人展示空中翻转、连续后空翻、单手侧后翻等高难度动作,并演示功夫拳法和顶膝动作 [10] - 公司计划今年下半年推出身高1.8米的人形机器人,已申请近10项人形机器人相关专利 [10] - 今年上半年国内机器人行业平均增长率达50%-100%,算法升级后机器人理论上可完成各种舞蹈和武术动作 [10] 苹果智能眼镜产品规划 - 苹果智能眼镜可能与Mac配对时运行完整visionOS,与iPhone配对时切换至轻便移动界面,计划2026-2027年发布 [11] - 公司已放弃开发"Vision Air"头戴设备,将工程师精力集中转向智能眼镜开发,直接对标Meta的Ray-Ban Display [11] - 第一代产品将不配备显示功能,但包含音乐扬声器、摄像头、语音控制和可能的健康功能 [11] OpenAI发展现状与展望 - Sam Altman表示AI会改变工作性质但不会消灭真正的工作,未来工作形式可能更轻松 [12] - GPT-6开发重点是更智能的模型、更长上下文和更好记忆能力,Codex已能完成整天任务 [12] - OpenAI当前每周活跃用户达8亿,团队正在研发全新语音交互设备但短期内不会透露 [12]
ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」
机器之心· 2025-10-13 12:21
机器之心报道 机器之心编辑部 说出概念,SAM 3 就明白你在说什么,并在所有出现的位置精确描绘出边界。 在时间节点上,这篇论文的出现也几乎完美契合 Meta 的节奏。SAM 1 于 2023 年 4 月发表 ,获得当年 ICCV 最佳论文提名,其(零样本)分割一切的概念让研究 者直呼「CV」不存在了,并且被誉为 CV 领域的「GPT-3 时刻」。 论文标题: SAM 3: Segment Anything with Concepts 论文地址:https://openreview.net/forum?id=r35clVtGzw Meta 的「分割一切」再上新? 9 月 12 日,一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陆 ICLR 2026,引发网友广泛关注。 大家纷纷猜测,这篇论文出自 Meta,毕竟文风和 Meta 以前发布的论文非常相似。再加上 SAM 与 SAM 2 均由 Meta 推出,这让外界几乎可以确定,SAM 3 就是 Meta「Segment Anything」系列的正式续作。 SAM 2 于 2024 年 7 月发表 ,在前身的基础上为 ...
Meta「分割一切」3.0曝光,技能语义分割加入概念提示,好好玩,要爆了
36氪· 2025-10-13 11:52
传统语义分割好无趣好无聊,技能语义分割加入概念提示,好好玩,要爆了。(doge) SAM 3——第三代"分割一切"模型刚刚被发现,已经悄然投稿ICLR 2026。 论文还在双盲评审阶段,作者匿名中,但标题暴露一切。 简单来说,就是在这个官方新版中,分割模型终于能听懂人话了:只要说出想要的东西,SAM 3就能在图像/视频中分割出对应实例。 比如,输入"条纹猫",SAM 3自己就能找出并分割图中所有带条纹的猫猫: 值得一提的是,SAM 3处理一张含100多个物体的图片仅需30ms,对视频也有近实时处理能力。 能听懂人话的SAM SAM 1引入了基于点、框、掩码等视觉提示的交互式分割任务,开辟了分割模型的新范式;SAM 2则在此基础之上,加入了对视频和记忆的支持。 这一次,SAM 3让这种交互式分割更进一步:支持基于短语、图像示例等概念提示的多实例分割任务——对,捎带手突破了前代只能处理单个实例的局 限。 论文中,SAM 3的研究团队将这种新任务范式命名为PCS(Promptable Concept Segmentation)。 PCS:可提示概念分割 PCS的定义是,给定图像或视频,模型能够基于短语、图像示例,或 ...
Meta「分割一切」3.0曝光!技能语义分割加入概念提示,好好玩,要爆了
量子位· 2025-10-13 11:35
模型概述与核心突破 - 第三代“分割一切”模型SAM 3已投稿ICLR 2026,支持基于短语、图像示例等概念提示的多实例分割任务[3][4][10] - 新模型核心突破在于引入可提示概念分割(PCS)范式,能听懂人话并分割图像/视频中所有匹配提示概念的实例,例如输入“条纹猫”即可找出所有带条纹的猫[6][7][11][12] - SAM 3解决了前代模型只能处理单个实例的局限,实现了全实例分割,并在视频中保持不同帧之间的身份一致性[10][17] 技术架构创新 - 检测器基于DETR架构,能根据语言和视觉提示生成实例级检测结果,并引入Presence Head模块解耦物体识别和定位任务以避免冲突[15][16] - 新架构支持开放性词汇,不局限于预定义类别,允许用户输入任意名词短语作为分割目标,并支持文本、视觉及两者结合的多模态提示[17] - 模型具备用户交互能力,允许通过交互对分割结果进行精细优化[17] 数据与基准测试 - 研究团队构建了可扩展数据引擎,生成覆盖400万独特概念标签、5200万经过验证的掩码的训练数据集,通过多阶段流程提升数据多样性和难度[19][20] - 人类与大语言模型相互检查以提升标注效率和质量[21] - 提出了SA-Co基准,包含214K独特概念、124K图像和1.7K视频,概念覆盖范围是现有基准的50倍以上,用于评估开放词汇分割性能[23][24] 性能表现 - 在LVIS数据集零样本分割任务中准确率达到47.0,比此前SOTA的38.5提升显著[28] - 在SA-Co基准测试中表现比基线方法强至少2倍,在实例分割、边界框检测和语义分割等多个任务上刷新SOTA[29][30] - 在视频PVS任务中性能优于SAM 2,在H200 GPU上处理含100多个实体的单张图像仅需30毫秒[30][31][35] 应用拓展与局限性 - 与多模态大模型结合可解决复杂任务,如分割“坐着但没拿礼物盒的人”,组合效果优于专门推理分割模型且无需专门训练数据[32][33][34] - 模型对语言处理局限于简单短语提示,不支持复杂语言表达、生成和理解能力[26] - 难以通过零样本方式泛化到医疗图像、热成像等细分领域,多目标视频分割场景下实时性能会下降[36][37]