首测DeepSeek识图，结果炸了

DeepSeek多模态能力进展 - 公司在DeepSeek-V4发布五天后，即开始小范围灰度测试其识图功能，更新速度极快[6][8] - 此次测试的识图模式被描述为挂载在DeepSeek-V4主干上的视觉理解模块，而非其原生多模态能力，被视为过渡期的开胃菜[72] - 此举证明公司在视觉理解技术路径上已经跑通，明显是在为接下来的原生多模态大招铺路[72] 识图功能具体表现与能力评估 - 功能在基础画面描述上表现准确，例如能完整描述Coser图像细节并识别角色，描述文字可用于文生图模型高度还原图片[15] - 在知识密集型任务中，模型能进行有效解析，如在思考模式下对一件博物馆藏品进行拆解，并判断其为“清代痕都斯坦风格”玉器[21][23] - 模型具备读取图片中文字信息并进行场景判断的能力，如准确识别出“中国建博会·广州”的活动现场图片[31] - 模型展现出一定的逻辑推理能力，例如能通过手机副屏等特征推断出未在知识库中的最新产品型号[41] - 面对复杂图形逻辑题（如行测例题），经过长时间思考（如三分钟、六分钟），模型在部分题目上能实现正确推理，但整体正确率不高[59][63][65] 当前功能存在的局限性 - 功能目前仅为小范围灰度测试，并非全量开放，仅部分用户可在App或网页版输入栏看到新增的“识图模式”按钮[8] - 模型的知识库存在更新延迟，无法识别近一两年出现的新事物，例如无法识别新游戏《Pokopia》[35] - 在元素识别等考验“眼力”的极限测试中表现不佳，例如无法正确数出隐藏图片中的老虎数量（实际10只，模型回答7只），也无法识别基于反色、碎块化隐藏的数字[48][49][50][51] - 在图形逻辑推理方面整体表现一般，测试的三道行测例题中仅答对一道[55][63]