视觉理解 - 财报，业绩电话会，研报，新闻

视觉理解

搜索文档

量子位· 2025-06-14 16:32

文章核心观点 - 由港中文MMLab、港理工、北京大学等机构联合开源的PAM模型，在继承SAM2强大分割与追踪能力的基础上，实现了对图像和视频中选定区域的“分割+识别+解释+描述”一体化语义理解，并以更小的参数量在多项基准测试中达到或逼近当前最佳性能 [1][2][8] 模型能力与特点 - PAM模型支持用户通过一次点击或拖拽矩形框，即可并行输出选定区域的分割掩膜（Mask）和丰富的语义文本信息，包括类别、解释和描述 [1][8][11] - 模型具备处理图像、短视频和长视频的能力：对于图像，输出物体类别、解释和精细描述；对于短视频，追踪分割物体并输出事件描述；对于长视频，可动态输出流式描述，类似实时字幕 [8][13][14] - 模型设计实现了性能与轻量的统一，仅使用3B参数，在保证高效推理和较低显存占用的前提下，实现了强大的多模态理解能力 [2][8] 技术架构与创新 - PAM通过引入“Semantic Perceiver”模块，连接SAM2分割骨架与大语言模型，将视觉特征高效翻译成多模态token，从而实现分割掩膜与语义信息的并行解码输出 [17] - 为支撑训练，团队构建了超大规模高质量数据集，包含150万个图像区域和60万个视频区域的标注，覆盖分类、解释、描述、时序事件等多个维度 [2][21] - 在视频数据处理上，采用Storyboard驱动式理解，对每段视频抽取6张关键帧合成高分辨率图像，并利用闭源VLM进行多帧联合推理，生成细节丰富且时间感知强的事件描述 [22][24] - 针对长视频，首创区域级流式视频字幕能力，通过将视频切分为连续事件片段并递归引入前文内容，确保描述在连续事件中保持高度语义一致性 [29][30] 性能表现与基准测试 - 在图像理解基准测试中，PAM-3B模型在PACO基准上达到最佳性能，超过先前最佳模型3.2%以上；在LVIS基准的语义IoU指标上，超越了当前SOTA模型DAM-8B [25] - 在OCR任务上，PAM-3B在Total-Text数据集上的准确率超过VP-SPHINX-13B模型3.5%，在COCO-Text上达到相当性能 [25][26] - 在视频理解多项基准测试中，PAM-3B在Elysium、BensMOT、HC-STVG等数据集上表现优异，例如在Elysium上METEOR得分达到24.3，显著高于对比模型 [27] - 在ImageCaption、VideoCaption、视频时序事件理解等多个评测基准上，PAM以更小的参数规模（3B对比8B、13B）刷新或并列SOTA [28] 开源与数据 - PAM模型的所有代码、模型权重及训练数据均已完全开源，可供社区研究与应用 [3][31]

视觉理解

语义信息输出

PAM（Perceive Anything Model）模型

PAM（Perceive Anything Model）模型

SAM2

Video LLM模型