Workflow
视觉理解
icon
搜索文档
分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
量子位· 2025-06-14 16:32
文章核心观点 - 由港中文MMLab、港理工、北京大学等机构联合开源的PAM模型,在继承SAM2强大分割与追踪能力的基础上,实现了对图像和视频中选定区域的“分割+识别+解释+描述”一体化语义理解,并以更小的参数量在多项基准测试中达到或逼近当前最佳性能 [1][2][8] 模型能力与特点 - PAM模型支持用户通过一次点击或拖拽矩形框,即可并行输出选定区域的分割掩膜(Mask)和丰富的语义文本信息,包括类别、解释和描述 [1][8][11] - 模型具备处理图像、短视频和长视频的能力:对于图像,输出物体类别、解释和精细描述;对于短视频,追踪分割物体并输出事件描述;对于长视频,可动态输出流式描述,类似实时字幕 [8][13][14] - 模型设计实现了性能与轻量的统一,仅使用3B参数,在保证高效推理和较低显存占用的前提下,实现了强大的多模态理解能力 [2][8] 技术架构与创新 - PAM通过引入“Semantic Perceiver”模块,连接SAM2分割骨架与大语言模型,将视觉特征高效翻译成多模态token,从而实现分割掩膜与语义信息的并行解码输出 [17] - 为支撑训练,团队构建了超大规模高质量数据集,包含150万个图像区域和60万个视频区域的标注,覆盖分类、解释、描述、时序事件等多个维度 [2][21] - 在视频数据处理上,采用Storyboard驱动式理解,对每段视频抽取6张关键帧合成高分辨率图像,并利用闭源VLM进行多帧联合推理,生成细节丰富且时间感知强的事件描述 [22][24] - 针对长视频,首创区域级流式视频字幕能力,通过将视频切分为连续事件片段并递归引入前文内容,确保描述在连续事件中保持高度语义一致性 [29][30] 性能表现与基准测试 - 在图像理解基准测试中,PAM-3B模型在PACO基准上达到最佳性能,超过先前最佳模型3.2%以上;在LVIS基准的语义IoU指标上,超越了当前SOTA模型DAM-8B [25] - 在OCR任务上,PAM-3B在Total-Text数据集上的准确率超过VP-SPHINX-13B模型3.5%,在COCO-Text上达到相当性能 [25][26] - 在视频理解多项基准测试中,PAM-3B在Elysium、BensMOT、HC-STVG等数据集上表现优异,例如在Elysium上METEOR得分达到24.3,显著高于对比模型 [27] - 在ImageCaption、VideoCaption、视频时序事件理解等多个评测基准上,PAM以更小的参数规模(3B对比8B、13B)刷新或并列SOTA [28] 开源与数据 - PAM模型的所有代码、模型权重及训练数据均已完全开源,可供社区研究与应用 [3][31]