Workflow
ADE(Agent Doc Extraction)
icon
搜索文档
吴恩达开新课教OCR!用Agent搞定文档提取
量子位· 2026-01-16 11:43
文章核心观点 - AI大模型的发展正推动OCR技术进入新的“深水区”创新阶段,使其从简单的文字识别演变为具备文档理解与知识抽取能力的智能体工作流[2][4] - 吴恩达发布的新课程提出了“智能体文档提取”方案,该方案在DocVQA基准测试中取得了99.15%的准确率,超越了人类表现,并提供了从本地代码到云端部署的完整实践指南[3][5][7][34] 行业技术动态与厂商进展 - **DeepSeek**:于10月份发布DeepSeek-OCR,采用视觉压缩技术,可将万字长文压缩至百个视觉token,在10倍压缩下仍保持97%的高准确率,单块A100-40G显卡每天可处理超过20万页文档[9] - **智谱AI与清华大学**:联合发布Glyph框架,通过“文本渲染成图”思路将超长文本转为紧凑图像,以突破上下文窗口限制[11] - **智谱AI GLM-4.6V系列**:12月发布,包含9B与106B参数版本。9B版本在低成本本地OCR场景表现突出,支持复杂扫描、笔记与模糊文档;106B版本凭借128K上下文窗口,能实现跨页理解长税表、合同与科研图谱,将OCR提升至文档理解与知识抽取层面[12] - **阿里千问**:10月发布的Qwen3-VL-30B等版本在OCR领域有重要升级[13] - **腾讯混元**:11月底开源1B参数的HunyuanOCR,虽参数少但具备处理表格、结构化文档、多语种内容的能力,运行速度快、易部署,成为开源热门[14][15] 技术演进与新方案核心 - **传统OCR的局限**:早期规则时代(如Tesseract)和后来的深度学习方案(如PaddleOCR)在提取文字时会将文档“压平”,导致表格结构、图注关系及阅读顺序等关键信息丢失,给下游大模型提供半成品数据,易产生幻觉[20][21][22][23] - **ADE方案三大支柱**:新方案基于“视觉优先”策略理解文档布局,采用“以数据为中心”保证精准,并凭借“智能体化”实现主动思考[24] - **核心技术模型**:方案搭载DPT模型,将文档视为整体视觉对象来理解其布局和空间关系[25] - **性能表现**:DPT模型在DocVQA基准测试中取得99.15%的分数,超越人类表现的98.11%[28][29] - **实战能力**:方案展现出强鲁棒性,能精准解析超过1000个单元格的巨型表格、复杂手写微积分公式、带有弯曲印章的证书及纯图示安装说明书[30][31] 技术落地与部署 - **视觉接地技术**:ADE不仅能提取文字,还能为每个数据块分配唯一ID和精确像素坐标,并生成局部截图,实现答案与原始文档位置的可视化对应[32][33] - **云端部署指南**:课程提供在AWS上搭建全自动流水线的实操指南,流程包括将PDF传至S3存储桶,由Lambda自动进行ADE解析,将结构化Markdown存储,再通过Bedrock知识库建索引,最终利用Strands Agents构建具备记忆和推理能力的行业知识助手[34]