Workflow
PAM(Perceive Anything Model)
icon
搜索文档
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位· 2025-06-14 16:33
文章核心观点 - 由港中文MMLab、港理工、北京大学等机构联合开源的PAM模型,在保留SAM2强大分割与追踪能力的基础上,实现了对图像和视频中选定区域的语义理解与描述,并能并行输出分割掩码和文本,标志着多模态感知模型在性能与轻量化统一方面取得重要进展 [1][8] 模型能力与特点 - **核心功能**:PAM模型支持用户通过一次点击或拖拽框选,在图像和视频中实现对目标物体的分割、追踪,并同步输出丰富的语义信息,包括类别、解释和描述 [1][8][11] - **多模态支持**:模型同时支持图像、短视频和长视频的理解任务,并能输出文本和分割掩码 [1] - **轻量高效**:PAM仅使用3B参数,在多个基准测试中达到或逼近SOTA性能,同时具备更优的推理效率和显存占用,适用于AR/VR、移动端等轻量化快速响应场景 [2][6] 技术架构与训练数据 - **模型架构**:PAM通过引入Semantic Perceiver模块,连接SAM2分割骨架与大语言模型,高效地将视觉特征“翻译”成多模态token,实现分割掩码与语义信息的并行解码输出 [17] - **参数规模**:模型仅使用1.5B或3B参数的LLM头部,即可输出丰富鲁棒的语义信息 [18] - **训练数据**:为训练PAM构建了超大规模高质量数据集,包含150万个图像区域和60万个视频区域的标注,数据已完全开源 [2][3][21] 性能表现与基准测试 - **图像理解基准**:在PACO基准测试中,PAM-3B达到最佳性能,超过先前最佳模型3.2%以上;在LVIS基准的语义IoU指标上,超越了当前SOTA模型DAM-8B [24][25] - **视频理解基准**:在多个视频理解基准上,PAM以更小的参数规模(3B对比8B、13B)刷新或并列SOTA [27][28] - **OCR任务**:在Total-Text基准上,PAM-3B超过VP-SPHINX-13B超过3.5%,并在COCO-Text上达到相当性能 [25][26] 应用场景与潜力 - **图像应用**:对于图片,PAM可输出选中物体的类别、解释、精细描述、整段描述及流式描述 [11] - **视频应用**:对于短视频,PAM可追踪分割物体并输出事件描述;对于长视频,可动态输出流式描述,类似实时字幕,并首创了区域级流式视频字幕能力,能在连续事件中保持高度语义一致性 [13][14][30]