信息压缩
搜索文档
超越英伟达Describe Anything,中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
36氪· 2025-10-28 15:26
近期,DeepSeek-OCR提出了"Vision as Context Compression"的新思路,然而它主要研究的是通过模型的OCR能力,用图片压缩文档。 那么自然图像是否也能作为文本的压缩呢?中科院&字节联合提出的「Grasp Any Region」提供了新思路。 △ 下面来具体看看。 团队认为,他们的最新工作Grasp Any Region (GAR)所实现的精准region captioning能力,为构建自然图像的Dense Caption,提供了潜在的可能路径之一。 具体而言,GAR具备三种能力: 局部细节与全局信息的trade-off 首先,什么是Region MLLMs? 与传统MLLMs不同,Region MLLMs旨在对图片/视频内容进行细粒度、可交互式的理解。 具体来说,用户可以提供各种各样的visual prompts (regions)以及user instructions,模型需要基于此,对特定region进行准确理解。 例如,"请描述这个区域",或"区域1和区域2之间是什么关系",甚至判断"区域1和区域2是否在镜子当中"。 其次,为什么要研究Region MLLMs? 1 ...
超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
量子位· 2025-10-28 13:12
文章核心观点 - 中科院与字节联合提出的Grasp Any Region (GAR) 模型,通过创新的“细粒度+全局上下文”架构设计,在区域级多模态大模型领域实现了突破性进展,为构建自然图像的Dense Caption和视觉信息压缩提供了新的可行路径 [2][4][39][80] 技术能力与创新 - GAR模型具备三种核心能力:精准描述用户指定区域、建模多个区域间关系、进行复杂的组合推理(如非实体判别)[5][7] - 模型采用两大创新组件:简洁高效的提示编码方案,以及RoI-Aligned Feature Replay机制,实现了局部细节与全局上下文的平衡 [39][40][42][43][48][53] - 该技术方案有效解决了传统Region MLLMs在局部细节与全局信息之间的两难困境,避免了如Osprey模型的局部细节丢失和DAM模型的全局信息丢失问题 [15][16][18] 性能表现与基准测试 - 在GAR-Bench-VQA测试集上,GAR-8B模型取得59.9分的综合成绩,表现超过GPT-4o,直逼最强推理模型o3和Gemini-2.5-Pro [70][71] - GAR-1B模型以50.6分的综合得分,在参数量远小于其他模型的情况下,性能超过了InternVL3-78B等大规模公开模型,凸显了方法在效率与效果上的优势 [71][72] - 在GAR-Bench-Cap测试集上,GAR-1B与GAR-8B分别取得57.5分和62.2分的最高综合成绩,表现超过Gemini-2.5-Pro等性能强劲的私有模型 [73][74] - 在Ferret-Bench与MDVP-Bench的零样本测试中,GAR模型在所有细分类别均位列第一,其中GAR-8B在自然图像任务中取得178.6分,大幅领先竞品 [75][76] 应用潜力与迁移能力 - GAR的能力可zero-shot迁移至视频任务,在VideoRefer-Bench测试中,GAR-8B性能超过DAM-8B,甚至优于in-domain训练的VideoRefer-7B模型 [78][79] - 该模型可作为Data-engine工具,为多模态理解模型提供精细的图像/视频描述用于预训练,提升文生图/视频模型对复杂指令的遵循能力,并为细粒度编辑模型提供精准的区域描述 [81][82][83] - GAR可天然作为Reward Model,在多模态理解任务的post-training阶段提供准确的区域理解奖励信号 [84]