超越英伟达Describe Anything,中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦
近期,DeepSeek-OCR提出了"Vision as Context Compression"的新思路,然而它主要研究的是通过模型的OCR能力,用图片压缩文档。 那么自然图像是否也能作为文本的压缩呢?中科院&字节联合提出的「Grasp Any Region」提供了新思路。 △ 下面来具体看看。 团队认为,他们的最新工作Grasp Any Region (GAR)所实现的精准region captioning能力,为构建自然图像的Dense Caption,提供了潜在的可能路径之一。 具体而言,GAR具备三种能力: 局部细节与全局信息的trade-off 首先,什么是Region MLLMs? 与传统MLLMs不同,Region MLLMs旨在对图片/视频内容进行细粒度、可交互式的理解。 具体来说,用户可以提供各种各样的visual prompts (regions)以及user instructions,模型需要基于此,对特定region进行准确理解。 例如,"请描述这个区域",或"区域1和区域2之间是什么关系",甚至判断"区域1和区域2是否在镜子当中"。 其次,为什么要研究Region MLLMs? 1 ...