智谱推出全球100B级最强开源多模态模型GLM-4.5V：获41个榜单SOTA

智谱GLM-4.5V模型发布 - 公司于8月11日正式推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V（总参数106B，激活参数12B），并在魔搭社区与Hugging Face开源 [3] - 该模型基于新一代旗舰文本基座模型GLM-4.5-Air，延续GLM-4.1V-Thinking技术路线，在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [4] - 模型具备全场景视觉推理能力，包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力 [5] 技术架构与性能表现 - 模型由视觉编码器、MLP适配器和语言解码器三部分组成，支持64K多模态长上下文，采用三维卷积提升视频处理效率 [6] - 引入双三次插值机制增强高分辨率图像处理能力，采用三维旋转位置编码（3D-RoPE）强化多模态信息的三维空间关系感知 [6] - 在多项基准测试中表现优异，如MMBench v1.1得分88.2、MMMU (val)得分75.4、MathVista得分84.6、OCRBench得分86.5等 [5] 训练方法与开发支持 - 采用三阶段训练策略：预训练阶段强化复杂图文及视频处理能力，SFT阶段引入显式"思维链"格式训练样本，RL阶段通过多领域奖励系统进行全面优化 [8] - 同步开源桌面助手应用，可实时截屏、录屏获取屏幕信息，处理多种视觉推理任务 [8] - 公司希望通过模型开源和API服务赋能开发者，基于多模态基座模型开发创新应用 [9] 行业影响与定位 - 多模态推理被视为通向AGI的关键能力之一，视觉-语言模型（VLM）是实现多模态推理的核心基础 [3] - 此前7月发布的GLM-4.1V-9B-Thinking模型曾登上Hugging Face Trending榜首，累计获得超过13万次下载 [3] - 本次发布标志着公司在通向通用人工智能（AGI）道路上的又一探索性成果 [3]