GAR(Grasp Any Region)
搜索文档
超越英伟达Describe Anything,中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
36氪· 2025-10-28 15:26
技术概述与核心创新 - 提出名为Grasp Any Region (GAR)的新型区域多模态大模型(MLLM),旨在实现对自然图像中用户指定区域的细粒度、可交互式理解[2] - 模型核心设计原则是既要实现对提示区域的细粒度理解,同时保留并利用整个场景的全局上下文,解决了传统Region MLLMs在局部细节与全局信息之间的两难困境[25][28] - 引入两个全新组件:简洁高效的提示编码机制,以及创新性的区域对齐特征回放技术,通过视觉编码器生成全局特征图,并利用RoI-Align技术提取高保真度局部特征[25][27] 模型核心能力 - 具备精准描述用户指定区域的能力,能够基于色彩、纹理、形状、材质等基础属性进行客观评测,例如正确识别青蛙样式的拖鞋而非误判为青蛙[5][8][9] - 能够建模多个区域之间的关系并进行复杂的组合推理,例如判断多个提示是否在镜子当中,或综合理解物体间的复杂关联[5][18] - 可对极小物体进行精准识别,并利用极小的图像细节正确建模物体之间的关系,在示例中能准确判断人物是拿着书而非在看书,凸显细节理解能力之强[11][14][16] - 模型能力可零样本迁移至视频描述任务,能够精准识别视频中的物体、人物与动作,进行语义层次的深度分析,甚至识别运动信息[21][23][24] 技术实现与数据构建 - 采用多阶段流程生成大规模、高质量训练数据集:首先利用种子数据集和ImageNet-21K构建45.6万条细粒度描述数据,再结合Panoptic Scene Graph数据集生成关联感知型数据[30][31][32] - 最终训练数据包含三部分:细粒度描述数据、关联感知型描述及问答对、以及选择题,本阶段最终构建出含414K样本的关联数据集[30][35] - 在模型架构中,用户指定的二值掩码经卷积块处理后生成mask embedding,与ViT的patch embedding相加完成空间信息与视觉特征的融合[27] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上,GAR-8B模型取得59.9分的综合成绩,表现超过GPT-4o的53.5分,直逼o3的61.3分和Gemini-2.5-Pro的64.2分[38][39] - 在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,超过Gemini-2.5-Pro的59.3分[41] - GAR-1B模型尽管参数量远小于其他模型,但其综合得分为50.6分,性能超过了InternVL3-78B等大规模公开模型,在纹理维度得分达到69.0分[39] - 在Ferret-Bench与MDVP-Bench上的零样本表现优异,GAR-8B在MDVP-Bench的自然图像任务中取得178.6分,大幅超过所有竞品模型[43][44] - 在VideoRefer-Bench测试中,zero-shot的GAR-8B甚至优于in-domain训练的VideoRefer-7B模型,取得72.0分的总体成绩[46][47] 应用前景与行业价值 - 可作为多模态理解模型的预训练数据生成工具,为训练提供精细的图像/视频描述[47] - 能辅助文生图或文生视频模型理解复杂的用户指令,提升模型对于复杂文本的指令遵循能力[47] - 可作为细粒度编辑模型的数据来源,提供针对待编辑区域的精准描述[47] - 可天然作为奖励模型,为多模态理解任务的后训练阶段提供准确的区域理解奖励信号[47] - 团队已将论文、代码和模型全部开源,并支持基于gradio的本地部署,降低了行业应用门槛[47][48][49]