OCR
搜索文档
智谱开源OCR!测完我把手机里的扫描软件都卸了......
量子位· 2026-02-11 20:49
行业技术动态 - 2025年末至2026年初,光学字符识别(OCR)技术成为科技领域竞争焦点,多家公司密集发布新模型[1] - 行业发展趋势呈现模型参数轻量化(0.07B至0.9B)、输出效果提升、处理速度更快且成本更友好的特点[51] - 主要厂商近期动态包括:百度于去年9月推出超轻量模型PP-OCRv5,DeepSeek上个月发布DeepSeek-OCR2,智谱近期发布GLM-OCR[40][41][42] GLM-OCR模型核心性能 - 智谱发布的GLM-OCR模型参数为0.9B,在OmniDocBench V1.5榜单上取得领先成绩[1] - 在多项专业评测中表现优异:文档解析(OmniDocBench v1.5)得分94.6,文本识别(OCRBench)得分94.0,公式识别(UniMERNet)得分96.5,表格识别(PubTabNet)得分85.2,信息抽取(Nanonets-KIE)得分93.7[2] - 在特定场景能力评测中,代码文档识别得分84.7,真实场景表格识别得分91.5,手写体识别得分87.0,多语言识别得分69.3,印章识别得分90.5,票据提取(KIE)得分94.5[4] 通用文本识别能力实测 - 模型支持照片、截图、扫描件、文档等多种输入形态,能够识别手写体、印章、代码等特殊文字[10] - 在手写体识别测试中,对一张包含60多个“汉字+数学公式”混排符号的图片,整体识别准确率约为96%,但在笔画潦草时会出现错误(如将“X”识别为“=”)[13][15] - 在代码解析测试中,模型能近乎1:1还原符号、缩进和排版,并能自动判断输入内容为代码并切换到相应输出模式[21][22] - 在低质量输入(如分辨率低、边缘不清的“高糊”文字)测试中,模型表现稳定,仅出现个别识别错误[28][29] 复杂表格解析能力实测 - 表格解析能力考察维度包括结构准确性、单元格内容识别精度以及端到端整体还原能力[30] - 在解析一份复杂的财务工作表格时,模型能准确还原绝大多数金额、正负数和重复数值[32] - 但模型在行列对齐上存在明显问题,例如未能正确识别并定位第一列的表头“报表项目”,导致后续行列关系错乱[32][33] 信息结构化提取能力 - 据官方介绍,GLM-OCR支持从各类卡证、票据、表格中智能提取关键字段,并输出标准的JSON格式[36] - 官方示例显示,在提供明确的提示词约束下,模型能从“中华人民共和国海关出口货物报关单”中稳定抽取如“境内发货人”、“运输方式”、“毛重(千克)”等数十个指定字段,并整理成结构清晰的JSON输出[38] 模型适用场景总结 - 适用于解析格式较为规整的Word、PPT、论文、教材表格[3] - 适用于解析不太抽象潦草的手写体、收据、代码、合同扫描件[3] - 适用于解析日常生活工作中的会议纪要、白板字迹等[3]
昂立教育:目前已形成业财务资税一体化的数据流转体系
证券日报网· 2026-01-28 20:14
公司财务与运营数字化进展 - 公司于2020年初步完成财务共享中心建设,并以此为基点持续推进财务数智化转型 [1] - 目前已形成业财务资税一体化的数据流转体系 [1] - 近年来,公司通过持续加强对OCR、RPA和AI等技术的应用,逐步释放人效、提升效能 [1]
DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型,性能媲美Gemini-3 Pro
量子位· 2026-01-27 16:32
核心观点 - DeepSeek开源了其全新的OCR模型DeepSeek-OCR 2,核心功能是将PDF文档精准转换为Markdown格式 [1] - 该模型的核心突破在于摒弃了传统的“光栅扫描”逻辑,引入了基于图像语义动态重排视觉标记的能力,从而模拟人类阅读的因果视觉流 [2][3] - 在性能上,该模型仅采用轻量模型,但达到了媲美谷歌Gemini-3 Pro的效果,并在OmniDocBench v1.5基准上实现了3.73%的性能提升 [4][5] 技术架构与核心升级 - **核心升级:DeepEncoder V2**:模型的核心升级在于编码器部分,用轻量化的语言模型Qwen2-0.5B替换了前作中的CLIP组件,构建了DeepEncoder V2,使其在视觉编码阶段就具备了因果推理能力 [2][10][16] - **工作原理**:新的编码器通过一种“双流注意力机制”和定制的注意力掩码,实现了对视觉标记的智能重排,使其在进入主解码器前就理顺了逻辑顺序,弥合了2D空间结构与1D语言建模之间的鸿沟 [16][18][19][20][21][22] - **其他组件**: - 视觉分词器沿用80M参数的SAM-base架构,输出维度从1024优化至896,实现了16倍的标记压缩,减轻了计算压力 [23][24][25] - 编码阶段引入灵活裁剪方案,最终输入LLM的视觉标记总数稳定在256到1120之间 [27] - 后端解码器保留了3B参数的MoE结构,实际激活参数约500M [28] 性能表现与基准测试 - **基准测试结果**:在OmniDocBench v1.5基准(包含1355个页面)上,DeepSeek-OCR 2的“Overall”得分达到91.09%,相比其前代模型(DeepSeek-OCR (9-crops))的87.36%提升了3.73个百分点 [5][6][35] - **细分指标提升**:在多个细分任务上均有显著提升,其中公式识别(Formula OM)得分从84.14%提升至90.31%(提升6.17个百分点),表格识别(TableTEDs)得分从85.25%提升至87.75%(提升2.5个百分点),阅读顺序编辑距离(R-orderEdit)从0.085降至0.057 [6][36] - **与竞品对比**: - 在相似的视觉标记预算(1120个)下,其整体文档解析编辑距离(OverallEdit)为0.100,优于谷歌Gemini-3 Pro的0.115 [37][38] - 其性能超越了包括GPT-4o、Qwen2.5-VL-72B、Gemini-2.5 Pro、Qwen3-VL-235B在内的多个先进大模型 [6][34] 训练流程与数据策略 - **数据策略**:训练数据中OCR相关数据占比达80%,并进行了采样均衡化(正文、公式、表格按3:1:1比例划分)和标签精简化(合并语义相似的布局标签)优化 [29][30] - **训练流程**:采用三阶段训练流程,包括编码器预训练(通过下一标记预测任务)、查询增强(联合优化编码器和解码器)以及解码器微调(仅优化解码器) [31][38] - **生产效果**:实际生产数据显示,在线用户日志的重复率从6.25%降至4.17%,PDF生产数据重复率从3.69%降至2.88%,证明了模型逻辑视觉理解能力的提升 [38][39] 团队背景与行业影响 - **核心团队**:论文的三位作者魏浩然、孙耀峰、李宇琨在AI领域有深厚背景,曾参与或主导过阶跃星辰GOT-OCR2.0、幻方AI大模型以及DeepSeek V2/V3等多款知名模型的研发 [40][41][43][45] - **学术贡献**:团队成员过往的研究成果(如DeepSeek-R1, DeepSeek-V3, ERNIE系列)在学术界有广泛影响力,引用次数高达数千次 [46] - **开源与可及性**:DeepSeek-OCR 2延续了团队的开源策略,项目代码、模型权重及论文已在GitHub和HuggingFace平台全面公开 [49][50]
日照港:公司正在研究推进财务共享中心建设
证券日报之声· 2026-01-21 19:41
公司战略与运营 - 公司正在研究推进财务共享中心建设 [1] - 公司拟通过引入OCR、RPA等技术工具推动数据标准化采集与自动化流转 [1] - 此举旨在提升业务协同效率与数据治理水平 [1]
10倍压缩率、97%解码精度!DeepSeek开源新模型 为何赢得海内外关注
新浪财经· 2025-10-22 07:26
模型发布与核心创新 - DeepSeek于10月20日开源最新大模型DeepSeek-OCR,这是一种通过光学2D映射压缩长上下文的视觉-文本压缩范式[1] - 模型核心创新在于用少量视觉token表示大量文本内容,旨在降低大模型计算开销,例如将1000字文章压缩成100个视觉tokens[1][7][8] - 该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,其中一作作者Haoran Wei曾主导开发GOT-OCR2.0系统[1] 技术架构与性能 - DeepSeek-OCR架构分为两部分:专为高压缩、高分辨率文档处理的DeepEncoder视觉编码器和轻量级混合专家语言解码器DeepSeek3B-MoE[3] - DeepEncoder融合SAM和CLIP两种成熟视觉模型架构,前者擅长局部细节处理,后者能捕获整体知识信息[4] - 实验表明,当压缩比<10×时模型可达97% OCR精度,即使在20×压缩比下精度仍保持约60%,在十倍压缩下识别准确率达96.5%[6][8] 行业影响与专家评价 - 模型发布后获海外科技媒体广泛赞美,被评价为"AI的JPEG时刻",前特斯拉AI总监Andrej Karpathy高度评价该论文[3] - 知名科技媒体《麻省理工科技评论》指出模型具备较强"深度解析"能力,能处理图表、化学分子式等复杂元素,拓展了在金融、科研等专业领域的应用空间[6] - 特斯拉创始人Elon Musk评论认为从长远看,AI模型超过99%的输入和输出都将是光子,没有其他东西可以规模化[4] 应用潜力与生产效率 - 模型初步验证上下文光学压缩可行性,可从少量视觉tokens有效解码超过10倍数量文本tokens,具备大规模生产预训练数据能力[7] - 单张A100-40G GPU每天可生成超过20万页训练数据,为大型语言模型和视觉-语言模型开发提供支持[7] - 模型不仅能识别标准文本,还能将图表转换为表格数据、分子式输出为SMILES格式,展示出在历史长上下文压缩和LLM记忆遗忘机制研究领域的应用前景[6][7]
全球OCR最强模型仅0.9B!百度文心衍生模型刚刚横扫4项SOTA
量子位· 2025-10-17 17:45
公司产品发布与性能表现 - 百度发布并开源自研多模态文档解析模型PaddleOCR-VL,该模型是文心大模型体系下专注文档解析任务的轻量化衍生产品 [2][5] - 模型参数量仅为0.9B,对开发者个人电脑友好,发布16小时内登顶抱抱脸Trending全球第一 [1][3] - 在权威评测OmniDocBench V1.5榜单上以92.6的综合得分获得全球第一,超越Gemini-2.5 Pro、GPT-4o等体量更大的模型 [1][11][12] - 在文本识别、公式识别、表格理解、阅读顺序四大核心能力上全面获得SOTA,是当前唯一在这四个维度全部排名第一的模型 [3][13] - 模型支持109种语言,并在手写、竖排、艺术字体等复杂形态下保持高识别精度 [14] - 文本识别得分96.5,公式识别CDM得分高达0.9453,表格理解得分89.8,阅读顺序预测误差仅有0.043 [14][20][24][26] - 在单张A100上推理速度达1881 token/s,文本编辑距离仅0.035 [38] 技术创新与架构设计 - 模型采用创新性的两阶段架构:第一阶段由PP-DocLayoutV2模型负责文档版面分析和阅读顺序预测,第二阶段由PaddleOCR-VL-0.9B进行细粒度识别 [36][37] - 通过融合NaViT动态分辨率视觉编码器与ERNIE-4.5-0.3B语言模型,在效率与精度上取得突破 [37] - 训练过程中使用超3000万样本,涵盖文本、表格、公式、图表等多模态信息,保证训练集的多样性和挑战性 [33] - 模块解耦、任务细化的设计使模型在面对复杂版面任务时表现更稳定高效,有效避免多模态模型常见的幻觉与错位问题 [37] - 集成四大技术突破:高性能资源高效的文档解析能力、复杂文档内容的高级解析能力、图表结构化转换能力、全面的多语种文本识别 [39] 行业影响与战略意义 - 模型具备极强的行业落地导向和平台集成能力,能理解复杂文档中的逻辑结构、表格关系、数学表达等 [5][6] - 在金融商业、教育科研、政务服务、文化保护等文档密集型行业可作为"文档工作助手"接入流程,帮助企业提效 [52] - 模型的结构化输出能力可与RAG系统深度融合,为大模型提供更高质量、更可控的知识输入,成为AI时代企业知识中台建设的关键基础设施 [52][54] - OCR技术已被推上"AI新应用链条的守门人"之位,成为全球科技巨头大模型布局中不可或缺的一环 [55] - 该模型标志着中国模型首次以"划线者"的姿态在全球多模态文档解析赛道上写下标准答案,证明了架构合理、任务聚焦的"小"模型同样可以在实际应用中跑赢大模型 [48][58][59]
新股前瞻|扫描全能王不断贡献增量,被AI“香”到了的合合信息(688615.SH)赴港“再拼一把”?
智通财经网· 2025-07-10 18:51
公司上市进展 - 合合信息继2023年9月登陆上交所科创板后,2024年正式向港交所主板提交上市申请 [1] - 公司在2024年全球C端效率类AI产品MAU上亿企业中,按收入计算位列国内第一、全球第五 [1] 核心产品表现 - "扫描全能王"是公司拳头产品,2022-2024年收入占比分别为72.3%、76.2%、77.3%,2025年Q1进一步提升至81.1% [1][3] - 该产品已成为全球用户规模最大的图像文本处理AI产品 [1] - 名片全能王收入从2022年2090.4万元增至2024年2835.3万元,2025年Q1为727.6万元 [3] - 启信宝收入从2022年7680.7万元降至2024年6411.3万元,2025年Q1继续减少至1474.2万元 [3] 财务数据 - 总收入从2022年9.88亿元增至2024年14.38亿元,2025年Q1达3.95亿元(同比+20%) [2] - C端产品收入占比从2022年82.2%升至2025年Q1的86.6% [3] - B端产品收入从2022年1.69亿元增至2024年2.25亿元,占比维持在15%左右 [4] - 中国内地收入占比从2022年64.2%提升至2024年67.6% [5][6] - 海外收入规模从2022年3.54亿元增至2024年4.66亿元 [5] - 毛利率从2022年83.7%提升至2025年Q1的85.6% [6] - 净利润从2022年2.84亿元增至2024年4.01亿元 [6] 技术优势 - 在复杂场景下平均字符识别率达81.9%,显著领先同类产品 [7] - 中文身份证识别测试条目识别率达99.6%,高于百度(98.7%)、腾讯(95.9%)等竞争对手 [7][8] - "扫描全能王"在普通文档(99%)、多语言(99%)、困难(95%)、手写(92%)、复杂场景(91%)数据集识别率均超90%,领先Adobe Scan、WPS等竞品 [9] 发展战略 - 计划开发RPA/Agent等新功能增强文档自动化处理能力 [10] - 重点拓展巴西、印尼、墨西哥等新兴市场(当前月活付费转化率不足中国1/4) [10] - 计划建立全球技术支持中心和本地化销售服务体系 [10] - "扫描全能王"已覆盖全球200+国家和地区 [10]
国网蒙东电力优化资金应用,进一步提升资金精益管理水平
中国能源网· 2025-05-14 12:02
智慧共享财务平台上线 - 国网蒙东电力智慧共享财务平台资金结算等4个应用完成上线试运行,显著提升资金配置效率、支付安全和业财融合水平 [1] - 平台优化银行账户全生命周期管理,自动采集银行交易流水13万笔,自动对账会计凭证3万多笔 [1] - 实现资金结算全业务流程处理,累计支付14万多笔,电费收入收款记账流水近4万笔 [1] - 优化票据全生命周期管理,初始化银行承兑汇票近千笔 [1] - 完善投融资管理模式,累计处理融资到还款近百笔 [1] 技术升级计划 - 下一步将依托OCR、AI等技术研究资金智能审核,解析发票、合同、收据等附件 [2] - 通过智能技术实现从"人工经验驱动"到"数据智能驱动"的转型 [2]