Workflow
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位·2025-06-14 16:32

PAM团队 投稿 量子位 | 公众号 QbitAI 可以输出语义的「分割一切模型2.0」来了! 一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出! 由港中文MMLab、港理工、北京大学等机构开源的 PAM (Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的 基础上,同时输出丰富的语义信息。 为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有 150万个图像区域+60万个视频区域标注 实验结果表明,PAM仅使用 3B参数 ,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现 性能与轻量的统一。 所有数据均已 完全开源 。 PAM:准确定位一键输出 SAM2拥有强大的分割能力,可以"分割一切物体",在视频中能够高效追踪 任意目标,表现惊艳! 但它也有一个明显的局限:无法提供定位目标的任何 语义信息 (比如物体是什么、有何功能、处于什么状态等)。 一些最新的 Video LLM 模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而: 这些 ...