小红书提出DeepEyesV2,从“看图思考”到“工具协同”,探索多模态智能新维度
量子位·2025-11-13 08:49
小红书 投稿 量子位 | 公众号 QbitAI 还记得今年上半年小红书团队推出的DeepEyes吗? 是的,就是那款能像人一样「放大图片细节找线索」,基本实现了类似o3「用图像思考」的多模态模型。 如今,更强大的版本—— DeepEyesV2 ,重磅发布。 先说结论:DeepEyesV2不仅延续了DeepEyes的视觉推理优势,更突破性地实现了「代码执行+网页搜索+图像操作」的全工具协同,从「会 看细节」进化为「能主动解决复杂问题的智能体」。 下面详细展开—— 痛点1:工具调用能力薄弱。 当你对着一张陌生植物的照片询问AI——「这是什么花?」 传统多模态模型要么完全不具备工具调用能力,只能依赖内部知识库进行基础理解; 要么,只能单一调用某类工具,无法形成组合策略。 比如,DeepEyes虽能通过裁剪工具实现图像细粒度感知,却因缺乏信息检索能力,无法仅凭内部知识确定花朵品种; 相比之下,MMSearchR1虽支持搜索,却因没有细粒度感知能力,常因「看不清图像细节」导致检索失败。 这种「单工具依赖」,让模型在面对复杂任务时束手无策。 多工具协同的多模态推理 现有的多模态大模型虽然能够理解文本和图像等多种信息,但是 ...