Workflow
DeepImageSearch
icon
搜索文档
最强多模态模型也拿不到30分?DeepImageSearch定义相册搜索新范式,开启个人视觉记忆的深度搜索时代
机器之心· 2026-03-11 18:59
图像检索范式变革 - 研究团队提出名为DeepImageSearch的图像检索新范式,将技术从“逐张语义匹配”推向“语料库级上下文推理”的全新范式 [2] - 新范式的核心是打破传统图像检索的底层假设,即每张图片被独立评估,目标仅凭自身视觉内容就能被识别 [7][8] - 新范式要求模型像侦探一样,在用户的视觉历史中规划搜索路径、串联散落线索、构建证据链,完成一次多步探索,而非单次检索 [7][10] 新范式定义与挑战 - 真正的相册搜索需要模型理解事件之间的时间脉络、空间关联和因果逻辑,在用户人生经历编织成的网络中循着蛛丝马迹找到答案 [10] - 新范式面临的核心挑战是设计高难度的评测基准,因为从用户数千张照片中挖掘隐藏的跨事件关联并设计多步推理题目成本极高 [12] - 研究团队通过人机协作流水线解决基准构建难题:先用模型自动挖掘线索与关联,组织成结构化记忆图谱,再由大语言模型沿推理路径生成候选查询,最后由人类专家核验改进 [13][14] 评测基准DISBench - 团队构建了名为DISBench的评测基准,包含两类查询:Intra-Event查询(占46.7%)和Inter-Event查询(占53.3%) [16] - 基准覆盖57位用户、近11万张照片,平均每位用户的视觉历史跨度3.4年,每条查询平均指向3.84张目标图片 [16] - 模型在评测时对“哪些照片属于同一事件”的内在结构完全不可见,必须从混沌中自主发现结构、串联线索 [16] 智能体框架ImageSeeker - 为探索完成视觉历史深度搜索所需的能力,团队设计了ImageSeeker框架,旨在系统性探索任务需求、工具设计和长程推理状态管理 [19] - 工具层面,模型需要灵活组合四种能力:语义检索、时空过滤、视觉确认及外部知识补充,并能通过命名子集协同这些能力,实现先缩小范围再精确定位的多步推理 [19][20] - 记忆层面,引入双层记忆机制解决长战线问题:显式状态记忆通过命名子集持久化保存中间发现;压缩上下文记忆在对话历史接近上限时自动提炼为“全局目标”和“当前行动计划”摘要 [20] 主流模型性能表现 - 在DISBench上测试的主流前沿模型表现全线受挫,表现最好的Claude-Opus-4.5一次尝试的完美率也只有约29% [22] - 开源最佳模型GLM-4.6V的综合得分不到最强闭源模型的四成 [22] - 传统Embedding模型(如Qwen3-VL-Embedding-2B/8B)在该任务上表现几乎等于盲猜,因为无法区分视觉高度相似但来自不同事件的图片,凸显了范式天花板 [22] 模型失败原因分析 - 系统性人工分析发现,模型失败的主要原因是规划和推理出错,该类型错误占所有错误的36%到50%,而非感知能力不足 [23][24] - 跨事件推理是核心瓶颈,强模型在单个事件内的搜索明显优于跨事件搜索,例如Claude-Opus-4.5的表现在跨事件查询上打了八折 [25] - 模型有做对的潜力,通过Best@k和多数投票等方式测试,总分随测试次数增加而提升,表明如何释放模型潜力是后续关键 [25]