文章核心观点 - 由港中文MMLab、港理工、北京大学等机构联合开源的PAM模型,在保留SAM2强大分割与追踪能力的基础上,实现了对图像和视频中选定区域的语义理解与描述,并能并行输出分割掩码和文本,标志着多模态感知模型在性能与轻量化统一方面取得重要进展 [1][8] 模型能力与特点 - 核心功能:PAM模型支持用户通过一次点击或拖拽框选,在图像和视频中实现对目标物体的分割、追踪,并同步输出丰富的语义信息,包括类别、解释和描述 [1][8][11] - 多模态支持:模型同时支持图像、短视频和长视频的理解任务,并能输出文本和分割掩码 [1] - 轻量高效:PAM仅使用3B参数,在多个基准测试中达到或逼近SOTA性能,同时具备更优的推理效率和显存占用,适用于AR/VR、移动端等轻量化快速响应场景 [2][6] 技术架构与训练数据 - 模型架构:PAM通过引入Semantic Perceiver模块,连接SAM2分割骨架与大语言模型,高效地将视觉特征“翻译”成多模态token,实现分割掩码与语义信息的并行解码输出 [17] - 参数规模:模型仅使用1.5B或3B参数的LLM头部,即可输出丰富鲁棒的语义信息 [18] - 训练数据:为训练PAM构建了超大规模高质量数据集,包含150万个图像区域和60万个视频区域的标注,数据已完全开源 [2][3][21] 性能表现与基准测试 - 图像理解基准:在PACO基准测试中,PAM-3B达到最佳性能,超过先前最佳模型3.2%以上;在LVIS基准的语义IoU指标上,超越了当前SOTA模型DAM-8B [24][25] - 视频理解基准:在多个视频理解基准上,PAM以更小的参数规模(3B对比8B、13B)刷新或并列SOTA [27][28] - OCR任务:在Total-Text基准上,PAM-3B超过VP-SPHINX-13B超过3.5%,并在COCO-Text上达到相当性能 [25][26] 应用场景与潜力 - 图像应用:对于图片,PAM可输出选中物体的类别、解释、精细描述、整段描述及流式描述 [11] - 视频应用:对于短视频,PAM可追踪分割物体并输出事件描述;对于长视频,可动态输出流式描述,类似实时字幕,并首创了区域级流式视频字幕能力,能在连续事件中保持高度语义一致性 [13][14][30]
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位·2025-06-14 16:33