多模态大语言模型（MLLMs）

搜索文档

超越英伟达Describe Anything，中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

36氪· 2025-10-28 15:26

技术概述与核心创新 - 提出名为Grasp Any Region (GAR)的新型区域多模态大模型(MLLM)，旨在实现对自然图像中用户指定区域的细粒度、可交互式理解[2] - 模型核心设计原则是既要实现对提示区域的细粒度理解，同时保留并利用整个场景的全局上下文，解决了传统Region MLLMs在局部细节与全局信息之间的两难困境[25][28] - 引入两个全新组件：简洁高效的提示编码机制，以及创新性的区域对齐特征回放技术，通过视觉编码器生成全局特征图，并利用RoI-Align技术提取高保真度局部特征[25][27] 模型核心能力 - 具备精准描述用户指定区域的能力，能够基于色彩、纹理、形状、材质等基础属性进行客观评测，例如正确识别青蛙样式的拖鞋而非误判为青蛙[5][8][9] - 能够建模多个区域之间的关系并进行复杂的组合推理，例如判断多个提示是否在镜子当中，或综合理解物体间的复杂关联[5][18] - 可对极小物体进行精准识别，并利用极小的图像细节正确建模物体之间的关系，在示例中能准确判断人物是拿着书而非在看书，凸显细节理解能力之强[11][14][16] - 模型能力可零样本迁移至视频描述任务，能够精准识别视频中的物体、人物与动作，进行语义层次的深度分析，甚至识别运动信息[21][23][24] 技术实现与数据构建 - 采用多阶段流程生成大规模、高质量训练数据集：首先利用种子数据集和ImageNet-21K构建45.6万条细粒度描述数据，再结合Panoptic Scene Graph数据集生成关联感知型数据[30][31][32] - 最终训练数据包含三部分：细粒度描述数据、关联感知型描述及问答对、以及选择题，本阶段最终构建出含414K样本的关联数据集[30][35] - 在模型架构中，用户指定的二值掩码经卷积块处理后生成mask embedding，与ViT的patch embedding相加完成空间信息与视觉特征的融合[27] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上，GAR-8B模型取得59.9分的综合成绩，表现超过GPT-4o的53.5分，直逼o3的61.3分和Gemini-2.5-Pro的64.2分[38][39] - 在GAR-Bench-Cap测试集上，GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩，超过Gemini-2.5-Pro的59.3分[41] - GAR-1B模型尽管参数量远小于其他模型，但其综合得分为50.6分，性能超过了InternVL3-78B等大规模公开模型，在纹理维度得分达到69.0分[39] - 在Ferret-Bench与MDVP-Bench上的零样本表现优异，GAR-8B在MDVP-Bench的自然图像任务中取得178.6分，大幅超过所有竞品模型[43][44] - 在VideoRefer-Bench测试中，zero-shot的GAR-8B甚至优于in-domain训练的VideoRefer-7B模型，取得72.0分的总体成绩[46][47] 应用前景与行业价值 - 可作为多模态理解模型的预训练数据生成工具，为训练提供精细的图像/视频描述[47] - 能辅助文生图或文生视频模型理解复杂的用户指令，提升模型对于复杂文本的指令遵循能力[47] - 可作为细粒度编辑模型的数据来源，提供针对待编辑区域的精准描述[47] - 可天然作为奖励模型，为多模态理解任务的后训练阶段提供准确的区域理解奖励信号[47] - 团队已将论文、代码和模型全部开源，并支持基于gradio的本地部署，降低了行业应用门槛[47][48][49]