行业技术趋势:OCR技术进入AI驱动的深水区创新 - 2025年之前OCR是通用技术,但2025年后随着AI大模型在架构、记忆、存储等深水区创新,OCR重新成为技术专项,吸引了包括DeepSeek、智谱、阿里千问和腾讯混元等主要厂商的密集研发[1] - 行业正从传统的文字识别向文档理解与知识抽取层面演进,技术突破集中在处理超长文档、复杂结构以及多模态理解上[7] 主要厂商技术进展 - DeepSeek:于2025年10月发布DeepSeek-OCR,采用“视觉压缩一切”技术,通过专属视觉编码器将万字长文压缩成百个视觉token,在10倍压缩下仍能保持97%的高准确率,单块A100-40G显卡每天可处理超过20万页文档[5] - 智谱与清华大学:联合发布Glyph框架,通过“文本渲染成图”思路将超长文本转为紧凑图像以突破上下文窗口限制[7];随后在12月正式发布GLM-4.6V多模态系列,包含9B与106B参数版本,其中106B版本凭借128K上下文窗口能跨页理解长税表、合同与科研图谱[7] - 阿里千问:在2025年10月发布的Qwen3-VL-30B等版本在OCR领域有重要升级[8] - 腾讯混元:于2025年11月底开源1B参数的HunyuanOCR,虽然参数少但具备处理表格、结构化文档、多语种内容的能力,运行速度快且易部署,迅速成为开源热门[9] 技术演进与新方案:智能体文档提取 - 传统OCR技术(如Tesseract, PaddleOCR)在提取文字时会将文档“压平”,导致表格结构、图注关系及阅读顺序等关键信息丢失,给下游大模型带来数据不完整和幻觉问题[12] - 吴恩达新课程提出的“智能体文档提取”方案是OCR在Agent时代的进阶,它是一个统一的智能体工作流,基于「视觉优先」策略、「以数据为中心」的精准性和智能体化主动思考三大支柱[13] - 该方案搭载DPT模型,将文档视为整体视觉对象来理解其布局和空间关系[13] - ADE方案在DocVQA基准测试中的准确率达到99.15%,超越了人类表现的98.11%[3][17][18] - 该方案展现出极强的鲁棒性,能精准解析超过1000个单元格的巨型表格、复杂手写微积分公式、带弯曲印章的证书以及纯图示安装说明书[19] 技术落地与部署 - ADE引入的视觉接地技术不仅能提取文字,还为每个数据块分配唯一ID和精确像素坐标,并能生成局部截图,实现答案与原始文档位置的可视化对应[19] - 课程提供了在AWS上部署的完整指南,可实现全自动流水线:PDF上传至S3存储桶后,由Lambda函数自动进行ADE解析,将结构化Markdown存储,再通过Bedrock知识库建索引,最终由Strands Agents构建成具备记忆和推理能力的行业知识助手[5][19]
吴恩达开新课教OCR,用Agent搞定文档提取
36氪·2026-01-16 15:35