Workflow
OCR技术
icon
搜索文档
只有0.9B的PaddleOCR-VL,却是现在最强的OCR模型。
数字生命卡兹克· 2025-10-23 09:33
行业趋势 - OCR赛道因DeepSeek-OCR等模型的发布而重新受到高度关注,呈现“文艺复兴”之势[1] - Hugging Face趋势榜前4名中有3个是OCR模型,Qwen3-VL-8B也具备OCR能力,形成“全员OCR”的行业现象[2] 公司产品定位 - PaddleOCR是百度长期投入的开源项目,发展历史可追溯至2020年,经过5年迭代成为OCR领域最火热的开源项目[6][7] - 该项目在Github上获得60K星标,在OCR项目中属于断档领先地位[7] - PaddleOCR-VL是百度近期开源的最新模型,首次将大模型应用于OCR文档解析的核心环节[9] 技术性能表现 - PaddleOCR-VL模型参数量仅为0.9B,但在OmniDocBench v1.5评测集的几乎所有子项都达到SOTA水平[11] - 在综合评分上达到92.56分,显著高于DeepSeek-OCR的86.46分,领先约6分[14][15] - 与参数量更大的模型相比表现优异:超越76B的InternVL3(80.33分)、241B的InternVL3.5(82.67分)和72B的Qwen2.5-VL(87.02分)[12] - 在 specialized VLMs 类别中排名第一,超越1.2B的MinerU2.5(90.67分)和3.7B的MonkeyOCR-pro-3B(88.85分)[12][15] 技术创新架构 - 采用两阶段架构:先由传统视觉模型PP-DocLayoutV2进行布局分析,将文档划分为不同功能区域并确定阅读顺序[18] - 核心的0.9B模型专门处理已被裁剪好的小图片,分别完成表格转Markdown、公式转LaTeX等具体任务[20] - 该架构避免了端到端大模型需要同时理解整页复杂布局的难题,实现了用小型模型达到最优效果的技术突破[16][20] 实际应用效果 - 在处理模糊扫描件时能够准确框选识别区域并按正确阅读顺序编号,文字识别准确率达到一字不差[22][24][27] - 对手写笔记识别表现良好,只要字迹不过于潦草均能保持较高准确率[27] - 对论文报纸等多栏密集排版文档处理稳定,阅读顺序正确,文字识别基本全对[28] - 支持端到端解析,能够还原图表内容[30][33] - 在处理发票收据等半结构化文档时表现可靠,能有效抓取关键信息[34] - 对大型复杂表格的识别能力突出,能准确还原行列关系,包括带合并单元格的表格[39][40] 商业化潜力 - 模型已在考虑替代现有财务系统中的视觉大模型,预计能显著提升财务工作效率[39] - 相比大型多模态模型,PaddleOCR-VL在价格和准确性方面具有明显优势,特别适合批量信息提取工作流[41][43] - 目前已开源并提供多个在线体验平台,包括飞桨、魔搭和Hugging Face[44][45]
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了
量子位· 2025-10-22 23:27
行业技术动态 - 智谱AI在DeepSeek发布DeepSeek-OCR后不到一天即开源了自家的视觉Token方案Glyph,显示出行业在视觉压缩技术领域的激烈竞争[1][2] - 视觉Token技术正成为AI领域的新趋势,截至10月22日,抱抱脸上最受欢迎的前四个模型全部支持OCR功能[70] 长上下文处理的技术挑战 - 随着大语言模型能力提升,用户和厂商对长上下文的需求日益迫切,但扩充上下文会导致算力消耗呈指数级增长,例如从50K扩展到100K,算力消耗约为原来的四倍[8][9] - 单纯增加Token数量并不能保证模型表现线性提升,输入过长可能导致模型受到噪声干扰和信息过载[12][13][14] - 当前主流解决方案包括扩展位置编码、改造注意力机制和检索增强RAG,但各自存在推理成本高、效率提升有限或响应速度慢等局限性[15][18][21][23] Glyph技术方案的核心创新 - Glyph采用将文本渲染成图像的新范式,利用图像更高的信息密度实现Token压缩,仅需一个视觉Token就能容纳原先需要好几个文本Token的内容[25][26][30] - 该方案使固定上下文的视觉语言模型能够处理超长文本,例如将240K文本Token的《简·爱》压缩至约80K视觉Token,让128K上下文的模型可以处理完整内容[32][34][36] - 训练流程分为持续预训练、LLM驱动的渲染搜索和后训练三个阶段,通过遗传算法优化渲染参数,并在SFT和RL阶段加入辅助OCR对齐任务[37][39][43][44] 技术性能表现 - Glyph在多项长上下文基准测试中实现了3-4倍的Token压缩率,同时保持与主流模型相当的准确度[49] - 该技术带来约4倍的prefill与解码速度提升,以及约2倍的SFT训练加速,显著减轻算力负担[51] - 在极端压缩情况下,128K上下文的视觉语言模型能够应对相当于百万Token级的文本任务[60] 视觉Token的行业影响 - 视觉Token技术大幅提升处理效率,DeepSeek-OCR仅用100个视觉Token就能在原本需要800个文本Token的文档上取得97.3%的准确率[72] - 效率提升显著降低AI应用门槛,单张NVIDIA A100-40G GPU每天可处理超过20万页文档,仅需一百多张卡即可完成一次完整的模型预训练[74][75] - 视觉Token可能从底层重塑大语言模型的信息处理方式,未来像素可能取代文本成为下一代AI的基本信息单元[76][77]
泰对外贸易厅支持企业使用 DFT SMART C/O 系统推动泰国出口
商务部网站· 2025-09-18 15:49
技术升级与系统优势 - 对外贸易厅持续升级DFT SMART-I系统,引入人工智能和OCR技术,推动进出口许可和认证服务全面数字化[1] - 系统优势包括企业仅凭身份证即可在线申请与追踪进度,获批文件可自助打印,并提供电子支付,无需亲自前往领取,大幅节省时间与成本[1] 系统应用成果 - 2023年12月15日至2025年8月期间,已通过DFT SMART C/O系统签发12类原产地证书[1] - 签发的证书覆盖RCEP、东盟系列协定、泰日、泰澳、泰秘鲁及出口欧盟的特定商品[1] 战略目标 - 技术升级旨在便利企业、降低成本,并提升泰国产品在国际市场的竞争力[1]