手写文本识别(HTR)
搜索文档
AI秒破18世纪“天书”账本,谷歌新模型盲测刷屏全网
36氪· 2025-11-12 18:44
文章核心观点 - 谷歌AI Studio上一款未经官方确认的神秘模型(推测为Gemini-3)在手写文本识别任务中展现出接近人类专家级的性能,其不仅准确识别了200多年前的复杂历史账本,还展现出无需显式提示的推理能力,能够纠正原始文档的格式错误并推断出缺失的上下文信息,标志着AI模型能力的一次显著跃迁[1][3][15][23][24] 模型性能表现 - 在包含50份文档、总计约1万词的测试集上,该神秘模型在5份最难的文档(总计刚过1000词)上取得了严格字符错误率为1.7%,严格词错误率为6.5%的成绩[13] - 若排除不影响语义理解的大小写和标点错误,模型的错误率进一步降至字符错误率0.56%和词错误率1.22%,达到了人类专家级的准确度水平[13][15] - 与早期模型相比,性能提升显著:Gemini-2.5-Pro比Gemini-1.5-Pro的错误率降低了约50-70%,而Gemini-1.5-Pro又比最初测试的GPT-4提升了约50-70%[11] 突破性能力展示 - 模型在识别一位18世纪奥尔巴尼商人的复杂账本时,不仅所有数字转写完全正确,还主动纠正了原记账员省略“0便士”的格式错误,将其规范化为“@2/0”[20] - 在面对一行模糊记录“To 1 loff Sugar 145 @ 1/4 0 19 1”时,模型推断出“145”代表重量单位,并通过多步换算(将总价229便士除以单价16便士)得出正确重量为14磅5盎司,在转写中澄清为“14 lb 5 oz”[20][23] - 此过程涉及在历史非十进制货币体系(1英镑=20先令,1先令=12便士)和十进制重量体系之间进行复杂换算,展现了模型对历史经济系统的抽象推理和理解能力,而非简单的模式识别[23][24] 行业技术意义 - 历史手写体识别被认为是检验AI整体能力的黄金测试,因为它不仅需要视觉识别,还需对历史背景有深刻理解,而拼写错误和风格不一致对预测式架构的大模型是巨大挑战[4][5] - 该模型展现出的“最后一英里的准确性”是历史手写文本识别能投入实际使用的前提,其能力可能标志着模式识别开始跨越真正“理解”的界限,机器开始能进行真正的符号化推理[8][24]