智谱开源GLM-OCR模型：仅0.9B参数，多项基准取得SOTA表现

模型发布与开源 - 智谱公司正式发布并开源了GLM-OCR模型 [1] - 该模型完整SDK与推理工具链已同步开源 [1] 模型性能与参数 - GLM-OCR模型参数规模仅为0.9B [1] - 在公式识别、表格识别、信息抽取的多项主流基准中均取得SOTA表现 [1] - 处理PDF文档的吞吐量可达1.86页/秒 [1] 技术架构与部署 - 模型采用“编码器-解码器”架构，集成了自研的CogViT视觉编码器 [1] - 采用“版面分析→并行识别”的两阶段技术流程 [1] - 支持vLLM、SGLang和Ollama部署 [1] - 适用于高并发及边缘计算场景 [1] 应用场景与优化 - 模型针对手写体、复杂表格、代码文档、印章识别及多语言混排等场景进行了优化 [1] 商业化定价 - 通过API调用，其定价为0.2元/百万Tokens [1]