模型能力 - GLM-4.5V在「图寻」游戏全球积分赛中击败了99.99%的人类玩家,展现出超强视觉推理能力[9] - 模型能通过建筑风格、植被类型、道路标识等环境信息进行精准定位,甚至给出精确经纬度[20][21] - 在视觉错觉测试中,模型快速识别出穿蓝色上衣和白色裤子的人与穿紫色衣服的人[16] - 模型能准确读取模糊光线下的时钟时间,克服了AI系统读取时钟准确率仅38.7%的行业难题[38][41] - 对相似场景如慕田峪与八达岭长城,模型能根据墙体完整度和游客数量等细节精准区分[44][47] 技术架构 - GLM-4.5V采用106B总参数、12B激活参数的架构,支持64K多模态长上下文[127] - 视觉编码器采用AIMv2-Huge,通过三维卷积提升视频处理效率[127] - 引入二维旋转位置编码和双三次插值机制,增强高分辨率图像适应性[127] - 语言解码器采用3D-RoPE位置编码,提升多模态空间理解能力[127] - 训练采用三阶段策略:预训练、监督微调和强化学习,在41个公开视觉多模态榜单达到开源SOTA水平[128][129] 应用场景 - 在安防监控领域,模型能处理含视觉错觉和遮挡的图片,具备高准确率识别能力[19] - 前端开发中,模型可根据截图或视频复刻网页布局,实现可交互功能[87][91][93] - 教育领域能总结10分钟英文演讲视频,准确提取人物、地点和事件等关键信息[61][65] - 本地文档处理方面,模型能解读论文图表并理解数据逻辑关系[101][103] - 在景区寻人等场景,模型可精准识别特定特征的人员或宠物[112][113] 行业影响 - 模型开源策略推动行业从性能竞赛转向实用价值创造,提升开发者定制灵活性[132] - 在GUI Agent领域展现核心能力,如准确定位电商商品和PPT操作按钮[121][123] - 视觉推理能力覆盖复杂图表、多图长文本等实际任务,拓展多模态应用边界[10] - 相比闭源模型,开源方案提供更高透明度,促进AI技术在各行业落地[132] - 模型实战表现优于benchmark成绩,反映行业向真实场景效果评估的转变趋势[131]
是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
机器之心·2025-08-12 11:10