DeepSeek识图模式 - 财报，业绩电话会，研报，新闻

DeepSeek识图模式

搜索文档

量子位· 2026-04-30 14:09

DeepSeek识图模式发布与市场反应 - 公司近期对DeepSeek识图模式进行了灰度测试，该多模态功能受到市场高度期待，其发布紧随V4模型之后[1] - 尽管官方未发布详细信息，但用户已从多个角度探索该识图功能，并发现其背后可能是一个独立于V4 flash/pro的新模型[2][3] - 公司在V4技术报告中提及的“未来展望”项目，其进展可能比外界预想的更快、更深入[4] 识图模式性能实测：速度与基础功能 - 在非深度思考模式下，视觉模型响应速度极快，几乎无需等待即可生成答案[5][6] - 在实用功能方面，模型的OCR能力表现可靠，能快速识别并处理技术报告摘要中的纯文本，并正确添加超链接[32] - 模型能准确识别并转换表格信息，使用markdown格式整齐输出，例如成功处理了包含DeepSeek-V3.2、V4-Flash、V4-Pro参数与性能对比的复杂表格[37] - 模型具备将网页图片复原为可用HTML代码的能力，且其中的按钮功能可正常使用，例如实现API文档链接的跳转[38][39] - 模型能通过“隐藏图片”测试，但在色盲测试中偶有失误[40][42] 识图模式性能实测：推理能力与幻觉问题 - 在空间推理测试中，非思考模式快速给出答案但错误，而开启深度思考后虽得出正确答案D，但耗时长达4分多钟[9][10][14][18] - 深度思考过程存在冗余，模型在思考中期已找到正确答案，但后续又进行了大量不必要的推理[19][20] - 在“图片找不同”任务中，非思考模式快速找出7处不同，但存在明显幻觉，例如识别出图中不存在的物品[24][25] - 开启思考模式后，用时16秒找出12处不同，但幻觉问题似乎更为严重[26][29] 模型技术细节与知识库特征 - 根据模型自身回答，其知识截止日期与DeepSeek V4 flash/pro一致，均为2025年5月[44] - 有迹象表明，视觉模型的知识库可能独立于文本模型，例如视觉模型知晓某特定人物，而V4 flash/pro在不联网时则不了解该人物[45][48] - 视觉模型甚至找到了2026年4月的信息，这进一步暗示其训练数据或知识更新可能独立进行[48] 公司技术发展节奏与行业影响 - 公司多模态能力的推出速度超出市场预期，此前行业普遍认为在多模态整合上公司资源有限、优先级不高[57] - 此次快速推出识图模式表明，公司的技术研发进展可能比其在技术报告中所暗示的更为超前[58] - 这引发市场对公司技术路线图其他方面的猜测，例如其在论文中提到的“积极探索模型稀疏性的其他新维度”可能也已取得进展[59]

多模态

Artificial Intelligence

DeepSeek识图模式

多模态

Artificial Intelligence

DeepSeek识图模式

首测DeepSeek识图，结果炸了

创业邦· 2026-04-30 11:23

DeepSeek多模态能力进展 - 公司在DeepSeek-V4发布五天后，即开始小范围灰度测试其识图功能，更新速度极快[6][8] - 此次测试的识图模式被描述为挂载在DeepSeek-V4主干上的视觉理解模块，而非其原生多模态能力，被视为过渡期的开胃菜[72] - 此举证明公司在视觉理解技术路径上已经跑通，明显是在为接下来的原生多模态大招铺路[72] 识图功能具体表现与能力评估 - 功能在基础画面描述上表现准确，例如能完整描述Coser图像细节并识别角色，描述文字可用于文生图模型高度还原图片[15] - 在知识密集型任务中，模型能进行有效解析，如在思考模式下对一件博物馆藏品进行拆解，并判断其为“清代痕都斯坦风格”玉器[21][23] - 模型具备读取图片中文字信息并进行场景判断的能力，如准确识别出“中国建博会·广州”的活动现场图片[31] - 模型展现出一定的逻辑推理能力，例如能通过手机副屏等特征推断出未在知识库中的最新产品型号[41] - 面对复杂图形逻辑题（如行测例题），经过长时间思考（如三分钟、六分钟），模型在部分题目上能实现正确推理，但整体正确率不高[59][63][65] 当前功能存在的局限性 - 功能目前仅为小范围灰度测试，并非全量开放，仅部分用户可在App或网页版输入栏看到新增的“识图模式”按钮[8] - 模型的知识库存在更新延迟，无法识别近一两年出现的新事物，例如无法识别新游戏《Pokopia》[35] - 在元素识别等考验“眼力”的极限测试中表现不佳，例如无法正确数出隐藏图片中的老虎数量（实际10只，模型回答7只），也无法识别基于反色、碎块化隐藏的数字[48][49][50][51] - 在图形逻辑推理方面整体表现一般，测试的三道行测例题中仅答对一道[55][63]

多模态能力

视觉理解

Artificial Intelligence

Artificial Intelligence

DeepSeek-V4

DeepSeek识图模式