Workflow
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
量子位·2025-07-02 12:46

模型性能与突破 - GLM-4.1V-9B-Thinking在28项评测中拿下23个SOTA,成为10B参数级别效果最好的视觉语言模型(VLM)[3] - 在18项评测中,该模型性能可与8倍参数量的Qwen-2.5-VL-72B竞争甚至超越[3] - 核心突破在于引入思维链(Chain-of-Thought)推理机制和课程采样强化学习(RLCS)[4] 实际应用表现 - 成功解析西班牙超现实主义画家达利的《记忆的永恒》,识别画作中违背物理规律的视觉符号[11] - 准确解答高考数学真题,在多个大模型易翻车的题目中给出简洁精准答案[12][15] - 处理看时钟和日期问题时表现接近人类水平(时间判断存在1分钟偏差)[16][19] - 具备看手相等生活场景应用能力[20][22] 技术架构创新 - 视觉编码器采用AIMv2-Huge架构,使用三维卷积处理视频,静态图片通过复制模拟视频输入[26] - 新增二维旋转位置编码,支持宽高比超200:1的画面和4K以上分辨率[27] - 语言解码器升级为三维旋转位置编码,增强空间关系理解能力[28] - 多层感知机适配器作为视觉与语言模块的桥梁[28] 训练方法论 - 预训练阶段采用双通道并行,12万步训练,批量大小1536,输入长度8192,覆盖图文混合/OCR/定位等多类型数据[31] - 监督微调阶段使用高质量思维链数据,输入长度扩展至32768,批量32,强化复杂因果关系推理[36] - 课程采样强化学习(RLCS)结合RLVR和RLHF,采用由简至难的课程学习策略[40] 商业化进展 - 获得浦东创投集团和张江集团10亿元投资,近期将完成首次交割[5] - 模型已在Github/ModelScope/Hugging Face开源,同步上线MaaS平台API接口[41][42] 核心能力清单 - 超长视频解析(2小时时长分析)[32] - 智能读图问答与理科解题(数学/物理)[32] - 图文识别转换(OCR/表格结构化)[32] - 专业文档处理(金融/政务关键信息提取)[32] - 图像定位标注与GUI界面操作[32] - 看图写代码(前端网页自动生成)[32]