DeepSeek多模态能力灰度上线 - DeepSeek的多模态能力(识图模式)已开启灰度测试,被选中的用户可在首页看到“识图模式”入口 [6] - 该功能使DeepSeek能够理解图片中的物体和场景,而不仅限于识别文字,标志着其具备了“看见世界”的能力 [6] 识图模式功能测试与表现 - 基础物体识别:能准确识别图片中兔子的品种并描述其姿态 [8] - 复杂场景与文字识别:能识别杭州灵隐寺照片中右下角草书“灵隐寺”字样,并准确报出该地点的经纬度坐标 [10][12] - 抗视觉欺骗能力:能准确分析包含视觉陷阱的图片,识别出墙面修补痕迹、垃圾收集区等真实物体,未被误导 [14][16] - 深度推理与地理定位: - 开启推理模式后,视觉能力增强,能分步骤拆解画面信息(前景、中景、背景)[20] - 能根据地标特征(如山脉、建筑风格)进行地理区域匹配,例如将山脉判断为燕山山脉,建筑风格定位到北京昌平等郊区 [20] - 最终能将位置范围收窄至北京昌平区或海淀山后地区,某些猜测选项距离实际位置已不到10公里 [23] 多模态应用场景示例 - 手相解读:能对用户上传的清晰手掌照片进行手相分析,描述手型、掌纹(如生命线、智慧线、感情线、命运线)等特征 [25][27] - 公司强调此类解读属于民俗文化和趣味参考,并无科学依据 [27] 行业意义与公司战略 - AI走向多模态已成为不可逆转的大趋势,多模态内容能扩展AI认知世界的维度,更贴近人类理解世界的方式 [29] - DeepSeek此前已进行多模态研究并发布过开源多模态模型Janus,但一直未在产品中向公众提供该能力,此次识图模式灰度测试补齐了这块“拼图” [28][29] - 目前识图模式仍为测试功能,但已展现出在视觉解析与跨模态推理方面的潜力 [29]
DeepSeek终于能看图了!我第一时间用它算命
36氪·2026-05-02 12:10