检索增强生成技术(RAG)

搜索文档
ICML 2025 Spotlight|南洋理工陶大程教授团队等提出基于RAG的高分辨率图像感知框架,准确率提高20%
机器之心· 2025-05-17 00:31
该工作由南洋理工大学陶大程教授团队与武汉大学罗勇教授、杜博教授团队等合作完成。 近些年,多模态大语言模型(MLLMs)在视觉问答、推理以及 OCR 等任务上取得了显著的成功。然而,早期的 MLLMs 通常采用固定的分辨率(例如 LLaVA- v1.5 将输入图像缩放为),对于输入图像为高分辨率图像(例如 8K 分辨率)会导致图像变得模糊,损失大量有效的视觉信息。 为了解决上述问题,目前的解决方案分为三类: 1. 基于裁剪的方法 :对于高分辨率图像裁剪成多个子图,每个子图分别通过视觉编码器提取视觉特征后再进行拼接。然而对于 8K 的图像,假设采用 ViT-L/14 就 需要接近 300K 的 visual token 长度,这对于目前大语言模型(LLM)的长上下文建模能力是一个巨大的挑战。 2. 采用处理高分图像的视觉编码器 :使用能处理更高分辨率图像的视觉编码器代替基于 CLIP 训练的 ViT。然而,对于 8K 分辨率的图像,依旧会缩放到对应视觉 编码器能接受的输入分辨率 (例如 ConvNeXt-L 的分辨率为 )。 3. 基于搜索的方法 :这类方法不需要训练,通过将高分辨率图像构建成树结构,在树结构上进 ...