智谱开源OCR!测完我把手机里的扫描软件都卸了......
量子位·2026-02-11 20:49

行业技术动态 - 2025年末至2026年初,光学字符识别(OCR)技术成为科技领域竞争焦点,多家公司密集发布新模型[1] - 行业发展趋势呈现模型参数轻量化(0.07B至0.9B)、输出效果提升、处理速度更快且成本更友好的特点[51] - 主要厂商近期动态包括:百度于去年9月推出超轻量模型PP-OCRv5,DeepSeek上个月发布DeepSeek-OCR2,智谱近期发布GLM-OCR[40][41][42] GLM-OCR模型核心性能 - 智谱发布的GLM-OCR模型参数为0.9B,在OmniDocBench V1.5榜单上取得领先成绩[1] - 在多项专业评测中表现优异:文档解析(OmniDocBench v1.5)得分94.6,文本识别(OCRBench)得分94.0,公式识别(UniMERNet)得分96.5,表格识别(PubTabNet)得分85.2,信息抽取(Nanonets-KIE)得分93.7[2] - 在特定场景能力评测中,代码文档识别得分84.7,真实场景表格识别得分91.5,手写体识别得分87.0,多语言识别得分69.3,印章识别得分90.5,票据提取(KIE)得分94.5[4] 通用文本识别能力实测 - 模型支持照片、截图、扫描件、文档等多种输入形态,能够识别手写体、印章、代码等特殊文字[10] - 在手写体识别测试中,对一张包含60多个“汉字+数学公式”混排符号的图片,整体识别准确率约为96%,但在笔画潦草时会出现错误(如将“X”识别为“=”)[13][15] - 在代码解析测试中,模型能近乎1:1还原符号、缩进和排版,并能自动判断输入内容为代码并切换到相应输出模式[21][22] - 在低质量输入(如分辨率低、边缘不清的“高糊”文字)测试中,模型表现稳定,仅出现个别识别错误[28][29] 复杂表格解析能力实测 - 表格解析能力考察维度包括结构准确性、单元格内容识别精度以及端到端整体还原能力[30] - 在解析一份复杂的财务工作表格时,模型能准确还原绝大多数金额、正负数和重复数值[32] - 但模型在行列对齐上存在明显问题,例如未能正确识别并定位第一列的表头“报表项目”,导致后续行列关系错乱[32][33] 信息结构化提取能力 - 据官方介绍,GLM-OCR支持从各类卡证、票据、表格中智能提取关键字段,并输出标准的JSON格式[36] - 官方示例显示,在提供明确的提示词约束下,模型能从“中华人民共和国海关出口货物报关单”中稳定抽取如“境内发货人”、“运输方式”、“毛重(千克)”等数十个指定字段,并整理成结构清晰的JSON输出[38] 模型适用场景总结 - 适用于解析格式较为规整的Word、PPT、论文、教材表格[3] - 适用于解析不太抽象潦草的手写体、收据、代码、合同扫描件[3] - 适用于解析日常生活工作中的会议纪要、白板字迹等[3]

智谱开源OCR!测完我把手机里的扫描软件都卸了...... - Reportify