当AI成”视觉神探“,准确性如何?隐私暴露风险如何抵御?
21世纪经济报道·2025-08-21 15:09
视觉推理技术发展现状 - 智谱AI推出全球100B级视觉推理模型GLM-4.5V 具备精准图像细节识别和地理位置推理能力 [1] - OpenAI、谷歌、豆包、通义千问等国内外公司竞相推出具备视觉推理能力的大模型 强调多模态水平 [1] - 视觉推理能力成为大模型性能发力点 技术发展迅速 新模型不断涌现 [6] 多模态模型实测表现 - 豆包APP在5张测试图片中准确率达100% 表现最优 [2] - 智谱GLM-4.5V准确率为60% 通义千问QVQ-Max准确率为20% [2] - 地标照片识别准确率最高 如国家跳台滑雪中心和杭州西湖均被三个模型准确识别 [3][4] - 豆包凭借联网搜索能力显著提升准确率 在识别人民大学校训石时通过联网比对得出正确答案 [4][5] 技术应用与隐私风险 - 多模态大语言模型在地理位置推断方面优于非专业人士 大幅降低从社交媒体图像提取用户位置数据的门槛 [7] - 智谱GLM-4.5V在"图寻游戏"中击败99%人类玩家 体现其超越人类的速度与精度 [7] - 实测显示三个大模型均可免费使用 在看图定位时未限制使用范围 且未拒绝识别人物身份的敏感指令 [8] - 研究表明确位置推断能力可能构成严重的隐私威胁 [7]