当AI成”视觉神探“，准确性如何？隐私暴露风险如何抵御？

视觉推理技术发展现状 - 智谱AI推出全球100B级视觉推理模型GLM-4.5V 具备精准图像细节识别和地理位置推理能力 [1] - OpenAI、谷歌、豆包、通义千问等国内外公司竞相推出具备视觉推理能力的大模型强调多模态水平 [1] - 视觉推理能力成为大模型性能发力点技术发展迅速新模型不断涌现 [6] 多模态模型实测表现 - 豆包APP在5张测试图片中准确率达100% 表现最优 [2] - 智谱GLM-4.5V准确率为60% 通义千问QVQ-Max准确率为20% [2] - 地标照片识别准确率最高如国家跳台滑雪中心和杭州西湖均被三个模型准确识别 [3][4] - 豆包凭借联网搜索能力显著提升准确率在识别人民大学校训石时通过联网比对得出正确答案 [4][5] 技术应用与隐私风险 - 多模态大语言模型在地理位置推断方面优于非专业人士大幅降低从社交媒体图像提取用户位置数据的门槛 [7] - 智谱GLM-4.5V在"图寻游戏"中击败99%人类玩家体现其超越人类的速度与精度 [7] - 实测显示三个大模型均可免费使用在看图定位时未限制使用范围且未拒绝识别人物身份的敏感指令 [8] - 研究表明确位置推断能力可能构成严重的隐私威胁 [7]