DeepSeek终于能看图了！我第一时间用它算命

DeepSeek多模态能力灰度上线 - DeepSeek的多模态能力（识图模式）已开启灰度测试，被选中的用户可在首页看到“识图模式”入口 [6] - 该功能使DeepSeek能够理解图片中的物体和场景，而不仅限于识别文字，标志着其具备了“看见世界”的能力 [6] 识图模式功能测试与表现 - 基础物体识别：能准确识别图片中兔子的品种并描述其姿态 [8] - 复杂场景与文字识别：能识别杭州灵隐寺照片中右下角草书“灵隐寺”字样，并准确报出该地点的经纬度坐标 [10][12] - 抗视觉欺骗能力：能准确分析包含视觉陷阱的图片，识别出墙面修补痕迹、垃圾收集区等真实物体，未被误导 [14][16] - 深度推理与地理定位： - 开启推理模式后，视觉能力增强，能分步骤拆解画面信息（前景、中景、背景）[20] - 能根据地标特征（如山脉、建筑风格）进行地理区域匹配，例如将山脉判断为燕山山脉，建筑风格定位到北京昌平等郊区 [20] - 最终能将位置范围收窄至北京昌平区或海淀山后地区，某些猜测选项距离实际位置已不到10公里 [23] 多模态应用场景示例 - 手相解读：能对用户上传的清晰手掌照片进行手相分析，描述手型、掌纹（如生命线、智慧线、感情线、命运线）等特征 [25][27] - 公司强调此类解读属于民俗文化和趣味参考，并无科学依据 [27] 行业意义与公司战略 - AI走向多模态已成为不可逆转的大趋势，多模态内容能扩展AI认知世界的维度，更贴近人类理解世界的方式 [29] - DeepSeek此前已进行多模态研究并发布过开源多模态模型Janus，但一直未在产品中向公众提供该能力，此次识图模式灰度测试补齐了这块“拼图” [28][29] - 目前识图模式仍为测试功能，但已展现出在视觉解析与跨模态推理方面的潜力 [29]