PAM（Perceive Anything Model） - 财报，业绩电话会，研报，新闻

PAM（Perceive Anything Model）

搜索文档

量子位· 2025-06-14 16:33

文章核心观点 - 由港中文MMLab、港理工、北京大学等机构联合开源的PAM模型，在保留SAM2强大分割与追踪能力的基础上，实现了对图像和视频中选定区域的语义理解与描述，并能并行输出分割掩码和文本，标志着多模态感知模型在性能与轻量化统一方面取得重要进展 [1][8] 模型能力与特点 - **核心功能**：PAM模型支持用户通过一次点击或拖拽框选，在图像和视频中实现对目标物体的分割、追踪，并同步输出丰富的语义信息，包括类别、解释和描述 [1][8][11] - **多模态支持**：模型同时支持图像、短视频和长视频的理解任务，并能输出文本和分割掩码 [1] - **轻量高效**：PAM仅使用3B参数，在多个基准测试中达到或逼近SOTA性能，同时具备更优的推理效率和显存占用，适用于AR/VR、移动端等轻量化快速响应场景 [2][6] 技术架构与训练数据 - **模型架构**：PAM通过引入Semantic Perceiver模块，连接SAM2分割骨架与大语言模型，高效地将视觉特征“翻译”成多模态token，实现分割掩码与语义信息的并行解码输出 [17] - **参数规模**：模型仅使用1.5B或3B参数的LLM头部，即可输出丰富鲁棒的语义信息 [18] - **训练数据**：为训练PAM构建了超大规模高质量数据集，包含150万个图像区域和60万个视频区域的标注，数据已完全开源 [2][3][21] 性能表现与基准测试 - **图像理解基准**：在PACO基准测试中，PAM-3B达到最佳性能，超过先前最佳模型3.2%以上；在LVIS基准的语义IoU指标上，超越了当前SOTA模型DAM-8B [24][25] - **视频理解基准**：在多个视频理解基准上，PAM以更小的参数规模（3B对比8B、13B）刷新或并列SOTA [27][28] - **OCR任务**：在Total-Text基准上，PAM-3B超过VP-SPHINX-13B超过3.5%，并在COCO-Text上达到相当性能 [25][26] 应用场景与潜力 - **图像应用**：对于图片，PAM可输出选中物体的类别、解释、精细描述、整段描述及流式描述 [11] - **视频应用**：对于短视频，PAM可追踪分割物体并输出事件描述；对于长视频，可动态输出流式描述，类似实时字幕，并首创了区域级流式视频字幕能力，能在连续事件中保持高度语义一致性 [13][14][30]

图像和视频理解

语义信息输出

PAM（Perceive Anything Model）

SAM2

图像和视频理解

语义信息输出

PAM（Perceive Anything Model）

SAM2