信息压缩 - 财报，业绩电话会，研报，新闻

信息压缩

搜索文档

超越英伟达Describe Anything，中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

36氪· 2025-10-28 15:26

技术概述与核心创新 - 提出名为Grasp Any Region (GAR)的新型区域多模态大模型(MLLM)，旨在实现对自然图像中用户指定区域的细粒度、可交互式理解[2] - 模型核心设计原则是既要实现对提示区域的细粒度理解，同时保留并利用整个场景的全局上下文，解决了传统Region MLLMs在局部细节与全局信息之间的两难困境[25][28] - 引入两个全新组件：简洁高效的提示编码机制，以及创新性的区域对齐特征回放技术，通过视觉编码器生成全局特征图，并利用RoI-Align技术提取高保真度局部特征[25][27] 模型核心能力 - 具备精准描述用户指定区域的能力，能够基于色彩、纹理、形状、材质等基础属性进行客观评测，例如正确识别青蛙样式的拖鞋而非误判为青蛙[5][8][9] - 能够建模多个区域之间的关系并进行复杂的组合推理，例如判断多个提示是否在镜子当中，或综合理解物体间的复杂关联[5][18] - 可对极小物体进行精准识别，并利用极小的图像细节正确建模物体之间的关系，在示例中能准确判断人物是拿着书而非在看书，凸显细节理解能力之强[11][14][16] - 模型能力可零样本迁移至视频描述任务，能够精准识别视频中的物体、人物与动作，进行语义层次的深度分析，甚至识别运动信息[21][23][24] 技术实现与数据构建 - 采用多阶段流程生成大规模、高质量训练数据集：首先利用种子数据集和ImageNet-21K构建45.6万条细粒度描述数据，再结合Panoptic Scene Graph数据集生成关联感知型数据[30][31][32] - 最终训练数据包含三部分：细粒度描述数据、关联感知型描述及问答对、以及选择题，本阶段最终构建出含414K样本的关联数据集[30][35] - 在模型架构中，用户指定的二值掩码经卷积块处理后生成mask embedding，与ViT的patch embedding相加完成空间信息与视觉特征的融合[27] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上，GAR-8B模型取得59.9分的综合成绩，表现超过GPT-4o的53.5分，直逼o3的61.3分和Gemini-2.5-Pro的64.2分[38][39] - 在GAR-Bench-Cap测试集上，GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩，超过Gemini-2.5-Pro的59.3分[41] - GAR-1B模型尽管参数量远小于其他模型，但其综合得分为50.6分，性能超过了InternVL3-78B等大规模公开模型，在纹理维度得分达到69.0分[39] - 在Ferret-Bench与MDVP-Bench上的零样本表现优异，GAR-8B在MDVP-Bench的自然图像任务中取得178.6分，大幅超过所有竞品模型[43][44] - 在VideoRefer-Bench测试中，zero-shot的GAR-8B甚至优于in-domain训练的VideoRefer-7B模型，取得72.0分的总体成绩[46][47] 应用前景与行业价值 - 可作为多模态理解模型的预训练数据生成工具，为训练提供精细的图像/视频描述[47] - 能辅助文生图或文生视频模型理解复杂的用户指令，提升模型对于复杂文本的指令遵循能力[47] - 可作为细粒度编辑模型的数据来源，提供针对待编辑区域的精准描述[47] - 可天然作为奖励模型，为多模态理解任务的后训练阶段提供准确的区域理解奖励信号[47] - 团队已将论文、代码和模型全部开源，并支持基于gradio的本地部署，降低了行业应用门槛[47][48][49]

GAR（Grasp Any Region）

DeepSeek - OCR

Describe Anything Model（DAM）

多模态大语言模型（MLLMs）

信息压缩

人工智能

GAR（Grasp Any Region）

DeepSeek - OCR

Describe Anything Model（DAM）

超越英伟达Describe Anything！中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

量子位· 2025-10-28 13:12

文章核心观点 - 中科院与字节联合提出的Grasp Any Region (GAR) 模型，通过创新的“细粒度+全局上下文”架构设计，在区域级多模态大模型领域实现了突破性进展，为构建自然图像的Dense Caption和视觉信息压缩提供了新的可行路径 [2][4][39][80] 技术能力与创新 - GAR模型具备三种核心能力：精准描述用户指定区域、建模多个区域间关系、进行复杂的组合推理（如非实体判别）[5][7] - 模型采用两大创新组件：简洁高效的提示编码方案，以及RoI-Aligned Feature Replay机制，实现了局部细节与全局上下文的平衡 [39][40][42][43][48][53] - 该技术方案有效解决了传统Region MLLMs在局部细节与全局信息之间的两难困境，避免了如Osprey模型的局部细节丢失和DAM模型的全局信息丢失问题 [15][16][18] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上，GAR-8B模型取得59.9分的综合成绩，表现超过GPT-4o，直逼最强推理模型o3和Gemini-2.5-Pro [70][71] - GAR-1B模型以50.6分的综合得分，在参数量远小于其他模型的情况下，性能超过了InternVL3-78B等大规模公开模型，凸显了方法在效率与效果上的优势 [71][72] - 在GAR-Bench-Cap测试集上，GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩，表现超过Gemini-2.5-Pro等性能强劲的私有模型 [73][74] - 在Ferret-Bench与MDVP-Bench的零样本测试中，GAR模型在所有细分类别均位列第一，其中GAR-8B在自然图像任务中取得178.6分，大幅领先竞品 [75][76] 应用潜力与迁移能力 - GAR的能力可zero-shot迁移至视频任务，在VideoRefer-Bench测试中，GAR-8B性能超过DAM-8B，甚至优于in-domain训练的VideoRefer-7B模型 [78][79] - 该模型可作为Data-engine工具，为多模态理解模型提供精细的图像/视频描述用于预训练，提升文生图/视频模型对复杂指令的遵循能力，并为细粒度编辑模型提供精准的区域描述 [81][82][83] - GAR可天然作为Reward Model，在多模态理解任务的post-training阶段提供准确的区域理解奖励信号 [84]

多模态大语言模型

信息压缩

人工智能

Grasp Any Region (GAR)

DeepSeek - OCR

Describe Anything Model (DAM)

多模态大语言模型

信息压缩

人工智能

Grasp Any Region (GAR)

DeepSeek - OCR

Describe Anything Model (DAM)