核心观点 - 商汤科技开源的多模态自主推理模型 SenseNova-MARS 在多项核心基准测试中超越顶级闭源模型,成为当前多模态搜索与推理领域的领先者 [1] - 该模型是首个支持动态视觉推理与图文搜索深度融合的智能体模型,具备自主规划步骤和调用工具以解决复杂任务的能力 [1] - 模型在真实场景中能有效处理需要多步骤推理与多工具协作的复杂问题,具备实际应用潜力 [7] 模型性能与基准测试 - 在 MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA 等基准测试中,SenseNova-MARS 取得了开源模型中的 SOTA 成绩 [1] - 模型在多模态搜索与推理的核心基准测试中平均得分达到 69.74 分,超越了 Gemini-3-Pro 的 69.06 分 和 GPT-5.2 的 67.64 分 [1][2] - 在图文搜索核心评测 MMSearch 榜单中,模型以 74.27 分 登顶,超过 GPT-5.2 的 66.08 分 [4] - 在高清细节搜索评测 HR-MMSearch 中,模型以 54.43 分 领先,显著拉开与闭源模型的差距 [4] - HR-MMSearch 测试采用 305 张 2025年最新的 4K 超高清图片,问题针对图片中占比不到 5% 的细节,60% 的问题需要至少使用三种工具才能解答 [5] 技术特点与能力 - 模型支持动态视觉推理和图文搜索深度融合,能自主规划步骤、调用工具,让AI具备“执行能力” [1] - 模型能够自主调用图像裁剪、文本/图像搜索工具,无需人工干预完成闭环解答 [9] - 具备处理“细节识别 + 信息检索 + 逻辑推理”复杂任务的能力,具体工具包括: - 图像裁剪:精准聚焦图片上占比不到 5% 的微小细节 [15] - 图像搜索:自动匹配物体、人物或场景的相关信息 [15] - 文本搜索:快速抓取精准信息,如公司成立年份、人物出生年月、行业数据等 [15] - 模型能够处理超长步骤的多模态推理和超过三种工具调用的复杂任务 [15] 应用场景 - 商业与行业分析:能从产品和行业峰会照片中识别企业标志,快速搜集产品、企业信息及时间、数量、参数等细节,辅助分析行业情况和格局 [10] - 体育与娱乐:能从赛事照片中识别 Logo、人物等信息,追溯比赛或人员背景信息,帮助快速补充重要细节 [12] - 复杂任务解决:可自主完成如“识别赛车服微小 Logo + 查询公司成立年份 + 匹配车手出生年月 + 计算差值”的复杂多步骤任务 [9] 训练方法 - 训练分为两个阶段: - 第一阶段:打基础。创新性地提出基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点与多跳深度关联检索机制,动态挖掘并关联跨网页实体逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验去除幻觉数据,构造具备严密逻辑链条与高知识密度的训练数据 [16] - 第二阶段:练实战。采用强化学习,让AI通过决策对错积累经验,并引入 BN-GSPO 算法作为“稳定器”,确保在处理简单和复杂问题时都能稳定进步,解决了跨模态多步多工具智能体训练中的收敛性难题 [17] - 通过训练,模型不仅学会使用工具,更培养了“工具使用直觉”,知道在何种情况下使用哪些工具以及如何结合不同工具的结果 [17]
商汤开源SenseNova-MARS,突破多模态搜索推理天花板