Workflow
智谱推出全球100B级最强开源多模态模型GLM-4.5V:获41个榜单SOTA
IPO早知道·2025-08-12 09:52

智谱GLM-4.5V模型发布 - 公司于8月11日正式推出全球100B级效果最佳的开源视觉推理模型GLM-4.5V(总参数106B,激活参数12B),并在魔搭社区与Hugging Face开源 [3] - 该模型基于新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能 [4] - 模型具备全场景视觉推理能力,包括图像推理、视频理解、GUI任务、复杂图表与长文档解析以及Grounding能力 [5] 技术架构与性能表现 - 模型由视觉编码器、MLP适配器和语言解码器三部分组成,支持64K多模态长上下文,采用三维卷积提升视频处理效率 [6] - 引入双三次插值机制增强高分辨率图像处理能力,采用三维旋转位置编码(3D-RoPE)强化多模态信息的三维空间关系感知 [6] - 在多项基准测试中表现优异,如MMBench v1.1得分88.2、MMMU (val)得分75.4、MathVista得分84.6、OCRBench得分86.5等 [5] 训练方法与开发支持 - 采用三阶段训练策略:预训练阶段强化复杂图文及视频处理能力,SFT阶段引入显式"思维链"格式训练样本,RL阶段通过多领域奖励系统进行全面优化 [8] - 同步开源桌面助手应用,可实时截屏、录屏获取屏幕信息,处理多种视觉推理任务 [8] - 公司希望通过模型开源和API服务赋能开发者,基于多模态基座模型开发创新应用 [9] 行业影响与定位 - 多模态推理被视为通向AGI的关键能力之一,视觉-语言模型(VLM)是实现多模态推理的核心基础 [3] - 此前7月发布的GLM-4.1V-9B-Thinking模型曾登上Hugging Face Trending榜首,累计获得超过13万次下载 [3] - 本次发布标志着公司在通向通用人工智能(AGI)道路上的又一探索性成果 [3]