OCR技术 - 财报，业绩电话会，研报，新闻 - Reportify

OCR技术

搜索文档

DeepSeek概念股短线拉升，OCR 2重磅发布，让AI学会“人类视觉逻辑”

金融界· 2026-01-27 14:18

市场反应 - DeepSeek发布新模型引发相关概念股短线拉升，云赛智联直线触及涨停，宏景科技20cm涨停，开普云、世纪恒通、并行科技短线拉升 [1] 技术突破与性能 - DeepSeek发布DeepSeek-OCR2模型，采用创新的DeepEncoder V2方法，使AI能根据图像含义动态重排图像部分，更接近人类视觉编码逻辑 [1] - 该技术打破传统OCR按固定顺序识别的局限，能更好理解图像语义关联，在复杂排版、扭曲变形、遮挡模糊等场景下识别准确率大幅提升 [6] - 在OmniDocBench v1.5基准测试中，该模型取得91.09%的成绩，较前代DeepSeek-OCR提升3.73% [6] - 模型在保持高精度的同时严格控制计算成本，其视觉Token数量限制在256至1120之间，上限与Google的Gemini-3 Pro保持一致 [6] - 在实际生产环境中，模型处理在线用户日志和PDF预训练数据时的重复率分别下降2.08%和0.81%，显示出极高的实用成熟度 [6] 架构意义与未来方向 - DeepSeek-OCR 2的发布具有深远的架构探索意义，DeepEncoder V2初步验证了使用语言模型架构作为视觉编码器的潜力 [7] - 这种架构天然继承了LLM社区在基础设施优化方面的成果，如混合专家架构和高效注意力机制 [7] - 这为迈向统一的全模态编码器提供了有希望的路径，未来单一编码器可能通过配置特定模态的可学习查询，在同一参数空间内实现对图像、音频和文本的特征提取与压缩 [7] - 模型展示的"两个级联的1D因果推理器"模式，通过将2D理解分解为"阅读逻辑推理"和"视觉任务推理"两个互补子任务，或许代表了实现真正2D推理的一种突破性架构方法 [7] 应用领域与行业机遇 - 模型可广泛应用于金融票据处理、医疗病历录入、政务文件数字化、古籍修复识别等多个领域，帮助相关企业降低人工识别成本，提升信息处理效率 [6] - OCR技术应用行业：为OCR行业带来技术升级方向，相关从事图文信息处理、数字化转型服务的企业可借助该模型优化自身产品，在金融、医疗、政务等领域拓展更多业务场景，迎来业绩增长机遇 [8] - 开源大模型服务行业：DeepSeek坚持开源开放的技术路线，持续推出高性能模型产品，为开发者和企业提供优质的模型底座，专注于大模型二次开发、模型部署与运维服务的企业将受益于行业热度提升，获得更多合作订单与市场关注 [8] - 端侧AI适配：众多企业完成DeepSeek模型在端侧设备上的适配部署，推动AI能力向边缘侧延伸，从事端侧硬件研发、边缘计算方案设计的企业将迎来发展机会，助力智能家居、智能车载、工业物联网等场景下的AI应用快速落地 [8]

Seek .(US:SKLTY)

开源大模型

OCR技术应用

开源大模型服务

开源大模型

OCR技术应用

开源大模型服务

三友化工：公司成立了财务共享中心

证券日报网· 2026-01-26 22:13

公司财务与运营数字化进展 - 公司成立了财务共享中心，以整合财务管理职能 [1] - 公司在技术上采用了RPA（机器人流程自动化）与OCR（光学字符识别）等技术以提升自动化水平 [1] - 公司财务共享中心按业务领域进行划分，以实现专业化管理 [1]

三友化工(SH:600409)

化学原料及化学制品制造业

财务共享中心

化学原料及化学制品制造业

财务共享中心

合合信息20260115

2026-01-16 10:53

公司概况与业务 * 公司为合合信息成立于2006年 2024年第三季度上市[3] * 公司是全球化视野明确且C端与B端业务均衡发展的原生AI应用公司[5][19][23] * 主要产品包括名片全能王扫描全能王和启信宝客户群体涵盖B端和C端市场[3] * 公司核心竞争力体现在出海能力强 OCR视觉识别技术领先并不断扩展商业大数据业务[19] * 公司产品已被国内头部大模型公司采用与大模型公司的关系是共生而非替代[19] 财务与市场表现 * 预计2026年公司收入将达到224亿元[2][4] * C端业务占主导地位主要依靠扫描全能王产品[2][4] * 海外营收比例逐步提升至30%左右[2][4] * 毛利率维持在80%以上利润率约为20%[2][4] * 作为纯软件SaaS化公司其底层技术OCR在行业内处于领先地位[4] 技术优势与竞争壁垒 * 公司底层技术主要集中在AI领域特别是深度学习算法自然语言处理以及OCR技术[3] * 在图片文字多模态识别等方面拥有强大的技术能力[3] * 扫描全能王产品能够实现99%的多语言识别率而竞争对手如夸克福昕 WPS及海外的Adobe Scan等产品则仅能达到91%至95%[2][6] * 对于困难数据和复杂场景的识别率合合信息也显著优于其他公司例如复杂场景下可达90% 而其他公司仅为20%至70%[6] * 在OCR领域中传统pipeline式的方法在专业性要求高精度要求高及容错率低的场景下表现优于大模型方法[20] 用户与产品数据 * 扫描全能王拥有全球最高MAU 接近2亿远超竞争对手Adobe Scan的几千万和Google Lens的不到两千万[2][8] * 月活跃用户数从2023年的1.5亿增长到2025年的1.9亿[8] * 用户主要包括学生 20%以上教育培训科研人员 10%以上律师及商务人士 65% [8] * 付费率持续提升从2023年的4%增长到2025年的5%[2][8] * 名片全能王年订阅费用约200元主要面向高端商务人群[11] 增长驱动与未来战略 * 未来增长点主要来自国内付费转化和海外市场扩展[2][9] * 公司战略重点之一是提高海外市场付费转化目前国内付费率约十几个百分点而海外仅有几个百分点[9] * 若海外付费率达到与国内相同水平由于海外用户数是国内的两倍且当前付费率仅为国内的三分之一公司的整体收入有望实现3至4倍的增长[2][10] * 公司计划通过港股上市进一步拓展海外市场[10] * 公司早期以产品驱动为主并未过多投入营销这也是未来潜力所在[9] 新产品与业务拓展 * 公司最近推出了一系列新产品包括AI助手 AI加教育 AI加健康等[13] * 扫描全能王推出了AI助手功能涵盖知识库搜索格式转换 AI纠错润色写作翻译等[13] * 还推出了针对K12教育和家长的功能如试卷擦除错题收集 AI答疑和批改[13] * 健康方面的新功能包括食物卡路里识别和营养师定制服务[13] * 启信慧眼是一款结合商业数据与AI技术的新产品拥有3.4亿家企业数据维度能够实现智能拓客搜索企业画像生成及风险控制[5][19][21][22] * 名片全能王拥有丰富的高端商务人群资源结合更多场景后其变现潜力巨大[11] * 启信宝是一个面向B2B和B2C用途的信息查询工具在大模型时代高质量数据成为核心资产[11][12] 行业背景与投资逻辑 * 尽管大模型具备多模态识别能力但在一些细分场景中仍存在精度不足的问题因此许多大模型厂商仍然采用了合合信息作为API接口[2][7] * 从2026年开始对AI应用公司的投资逻辑应重点关注下游商业化回报而不仅仅是上游资本支出[15][16] * 建议将计算机仓位推到标配甚至超配水平以抓住AI产业发展机会[16] * 中国企业在全球AI应用领域取得显著进展具备强大的工程化能力和技术实力在全球范围内具有竞争力[14] * 中国应用在移动互联网时代的竞争力强在支付衣食住行等各个环节的信息化程度远高于欧美[17] * 当前AI应用的发展主要有三条主线传媒线大厂线以及包括合合信息在内的个股线[18]

合合信息(SH:688615)

软件与服务

扫描全能王

名片全能王

软件与服务

扫描全能王

名片全能王

合合信息（688615）：智能文字识别领军，AI爆发核心受益者

申万宏源证券· 2025-12-05 14:03

投资评级与估值 - 首次覆盖给予“买入”评级 [3][5][6] - 目标市值434亿元，基于2026年69倍市盈率 [5][6][108] - 预计2025-2027年归母净利润分别为4.95亿元、6.27亿元、7.83亿元，同比增速分别为23.7%、26.5%、25.0% [4][5][6] 核心业务与市场地位 - 合合信息为智能文字识别与商业大数据领军者，B/C端产品双轮驱动 [5][18] - 2024年智能文字识别收入10.9亿元，同比增长20.5%，其中C端APP扫描全能王收入9.82亿元，营收占比达68.5% [5][24] - 2024年商业大数据收入2.1亿元，同比增长15.3%，其中B端场景收入1.5亿元，营收占比10.4% [5][24] - 核心技术OCR具备18年研发经验，平均识别率行业领先，名片全能王常规多语言名片识别率均值99.43%，扫描全能王常规印刷体识别率均值99.77% [5][43] 财务表现与增长预测 - 公司2022-2024年营业收入分别为9.89亿元、11.87亿元、14.38亿元，同比增长22.7%、20.0%、21.2% [5][28] - 2022-2024年归母净利润分别为2.84亿元、3.23亿元、4.01亿元，同比增长96.4%、13.9%、23.9% [5][28] - 毛利率维持高位且稳定，2022-2024年整体毛利率分别为83.7%、84.3%、84.3% [5][31] - 预计2025-2027年营业收入分别为18.0亿元、22.5亿元、28.3亿元，同比增速分别为25.1%、25.2%、25.6% [4][5][6] 产品与技术优势 - C端核心产品扫描全能王为全球用户规模最大的图像文本处理AI产品，截至2023年总用户数达11.42亿，月活1.28亿，付费渗透率提升至5.28% [5][34][80] - 智能文字识别技术壁垒高，其第一性原理（确定性复原）与大模型（概率性生成）存在本质区别，在多模态大模型时代难以被替代 [5][65][73] - 公司构建算法-算力-数据三大底层平台（天枢、天璇、天玑），布局多模态推理决策Agent [5][24] 增长催化剂与战略布局 - C端产品出海空间广阔，2024年境外收入达4.7亿元，占比32%，部分发展中国家付费渗透率有较大提升空间 [5][25][92][93] - B端产品从项目制向标准化转型，推出TextIn和启信慧眼等标准化SaaS+行业解决方案 [5][94][98] - 大模型和MCP（模型上下文协议）带来新机遇，公司TextIn MCP工具可被AI应用自动集成，拓宽获客路径 [5][99] - 筹划发行H股于港交所上市，以推进全球化战略布局，转化海外海量用户蓄水池 [5][25]

合合信息(SH:688615)

商业大数据

多模态推理决策Agent

扫描全能王

商业大数据

多模态推理决策Agent

扫描全能王

【兴证计算机】合合信息（深度）：OCR领军，恰沐AI应用春风

兴业计算机团队· 2025-12-01 20:11

公司概况与业绩表现 - 公司是行业领先的AI及大数据企业，依托智能文字识别核心技术（OCR技术）[1] - 公司C端主打扫描全能王、名片全能王、启信宝等核心APP，B端围绕客户需求提供智能识别解决方案，目前C端业务为主要收入来源[1] - 2022至2024年，公司实现营业总收入9.88亿元、11.87亿元、14.38亿元，分别同比增长22.67%、20.04%、21.21%[1] - 2022至2024年，公司实现归母净利润2.84亿元、3.23亿元、4.01亿元，分别同比增长96.37%、13.91%、23.93%[1] C端业务分析 - 截至2025年上半年，公司C端全球用户月活1.81亿，累计付费用户852.55万[1] - C端产品中，扫描全能王为营收主要来源，份额全球领先；名片全能王知名度高；启信宝助力公司发力商业大数据[1] - C端业务具备技术持续领先，卡位场景入口等优势[1] - 长期角度，公司产品在海外具备高份额、强影响力，目前海外收入占比较低，未来具备极大成长空间[1] B端业务分析 - 公司B端业务主要涵盖智能文字识别及商业大数据两方面[2] - 智能文字识别方面，公司打造一站式智能文档平台TextIn，提供通用文字识别、卡证类识别、文字识别训练平台等核心产品，可供开发者按次调用各种识别功能[2] - 商业大数据方面，公司提供企业数据API、企业数据库、启信慧眼等产品[2] - 重点产品启信慧眼定位商业数据驱动智能决策的企业级AI产品线，凭借对客户场景理解提供标准化产品，助力公司打开商业大数据企业市场[2]

倍轻松(SH:688793)

扫描全能王

名片全能王

扫描全能王

名片全能王

混元OCR模型核心技术揭秘：统一框架、真端到端

量子位· 2025-11-29 12:02

模型发布与市场反响 - 腾讯混元大模型团队正式发布并开源商业级、轻量级OCR专用视觉语言模型HunyuanOCR，参数规模为10亿[1] - 模型在Hugging Face趋势榜排名前四，GitHub标星超过700，并在发布当天被vllm官方团队接入[3] - 模型已在Hugging Face和ModelScope等平台开源，并提供基于vLLM的高性能部署方案[9] 核心性能与技术突破 - 模型在ICDAR 2025 DIMT挑战赛小模型赛道荣获冠军，并在OCRBench上取得30亿参数以下模型SOTA成绩[2] - 实现全能与高效统一，在轻量框架下支持文字检测识别、复杂文档解析、信息抽取、视觉问答和图像翻译等多项功能[5] - 采用极简端到端架构，摒弃版面分析等前处理依赖，彻底解决流水线错误累积问题，大幅简化部署流程[6][18] - 通过数据驱动与强化学习创新，验证高质量数据价值并显著提升多项OCR任务性能[7][8][35] 模型架构设计 - 采用原生ViT和轻量LLM结合的协同架构，由原生分辨率视觉编码器、自适应MLP连接器和轻量级语言模型构成[16] - 视觉部分基于SigLIP-v2-400M，引入自适应Patching机制支持任意分辨率输入，避免长文档场景下的图像失真[16] - 语言模型侧基于Hunyuan-0.5B，引入XD-RoPE技术将一维文本、二维版面及三维时空信息进行解耦与对齐[17] - 贯彻端到端训推一体范式，各项任务仅需单次推理即可获取完整效果，消除传统架构中的错误累积问题[14][19] 训练数据构建 - 研究团队构建包含超2亿图像-文本对的大规模高质量多模态训练语料库，覆盖9大核心真实场景和超过130种语言[21] - 基于SynthDog框架进行深度扩展，实现130多种语言的段落级长文档渲染及双向文本支持，提升跨语言泛化能力[24] - 开发集难例挖掘、指令式QA生成与一致性校验于一体的自动化流水线，实现对同一图像进行多维度统一标注[26] - 通过合成+仿真策略增强模型鲁棒性，引入Warping变形合成流水线模拟几何变形和成像退化等自然场景缺陷[24][25] 预训练策略 - 采用四阶段预训练策略：第一阶段冻结LLM训练ViT与适配器，使用500亿token数据实现视觉语言对齐[29][30][33] - 第二阶段解冻所有参数进行端到端学习，使用3000亿token数据增强对复杂结构化内容的感知理解能力[30][33] - 第三阶段将上下文窗口扩展至32k，满足长文档图像解析需求[32][33] - 第四阶段开展应用导向的退火训练，使用240亿token人工标注与合成数据，规范模型响应模式[32][33] 强化学习方案 - 创新性将强化学习应用于轻量级OCR专家模型，针对不同任务类型采用混合奖励策略[35][36] - 文字检测识别和文档解析任务采用基于可验证奖励的强化学习，翻译和VQA任务采用LLM-as-a-judge奖励机制[36] - 采用群组相对策略优化算法，引入严格长度约束与格式规范机制，确保输出符合预定义Schema[41][42] - 通过严苛的数据筛选流程，利用LLM过滤低质数据，保持训练数据的质量、多样性与难度平衡[39]

腾讯控股(HK:00700)

混元OCR模型

混元OCR模型

只有0.9B的PaddleOCR-VL，却是现在最强的OCR模型。

数字生命卡兹克· 2025-10-23 09:33

行业趋势 - OCR赛道因DeepSeek-OCR等模型的发布而重新受到高度关注，呈现“文艺复兴”之势[1] - Hugging Face趋势榜前4名中有3个是OCR模型，Qwen3-VL-8B也具备OCR能力，形成“全员OCR”的行业现象[2] 公司产品定位 - PaddleOCR是百度长期投入的开源项目，发展历史可追溯至2020年，经过5年迭代成为OCR领域最火热的开源项目[6][7] - 该项目在Github上获得60K星标，在OCR项目中属于断档领先地位[7] - PaddleOCR-VL是百度近期开源的最新模型，首次将大模型应用于OCR文档解析的核心环节[9] 技术性能表现 - PaddleOCR-VL模型参数量仅为0.9B，但在OmniDocBench v1.5评测集的几乎所有子项都达到SOTA水平[11] - 在综合评分上达到92.56分，显著高于DeepSeek-OCR的86.46分，领先约6分[14][15] - 与参数量更大的模型相比表现优异：超越76B的InternVL3(80.33分)、241B的InternVL3.5(82.67分)和72B的Qwen2.5-VL(87.02分)[12] - 在 specialized VLMs 类别中排名第一，超越1.2B的MinerU2.5(90.67分)和3.7B的MonkeyOCR-pro-3B(88.85分)[12][15] 技术创新架构 - 采用两阶段架构：先由传统视觉模型PP-DocLayoutV2进行布局分析，将文档划分为不同功能区域并确定阅读顺序[18] - 核心的0.9B模型专门处理已被裁剪好的小图片，分别完成表格转Markdown、公式转LaTeX等具体任务[20] - 该架构避免了端到端大模型需要同时理解整页复杂布局的难题，实现了用小型模型达到最优效果的技术突破[16][20] 实际应用效果 - 在处理模糊扫描件时能够准确框选识别区域并按正确阅读顺序编号，文字识别准确率达到一字不差[22][24][27] - 对手写笔记识别表现良好，只要字迹不过于潦草均能保持较高准确率[27] - 对论文报纸等多栏密集排版文档处理稳定，阅读顺序正确，文字识别基本全对[28] - 支持端到端解析，能够还原图表内容[30][33] - 在处理发票收据等半结构化文档时表现可靠，能有效抓取关键信息[34] - 对大型复杂表格的识别能力突出，能准确还原行列关系，包括带合并单元格的表格[39][40] 商业化潜力 - 模型已在考虑替代现有财务系统中的视觉大模型，预计能显著提升财务工作效率[39] - 相比大型多模态模型，PaddleOCR-VL在价格和准确性方面具有明显优势，特别适合批量信息提取工作流[41][43] - 目前已开源并提供多个在线体验平台，包括飞桨、魔搭和Hugging Face[44][45]

智谱运气是差一点点，视觉Token研究又和DeepSeek撞车了

量子位· 2025-10-22 23:27

行业技术动态 - 智谱AI在DeepSeek发布DeepSeek-OCR后不到一天即开源了自家的视觉Token方案Glyph，显示出行业在视觉压缩技术领域的激烈竞争[1][2] - 视觉Token技术正成为AI领域的新趋势，截至10月22日，抱抱脸上最受欢迎的前四个模型全部支持OCR功能[70] 长上下文处理的技术挑战 - 随着大语言模型能力提升，用户和厂商对长上下文的需求日益迫切，但扩充上下文会导致算力消耗呈指数级增长，例如从50K扩展到100K，算力消耗约为原来的四倍[8][9] - 单纯增加Token数量并不能保证模型表现线性提升，输入过长可能导致模型受到噪声干扰和信息过载[12][13][14] - 当前主流解决方案包括扩展位置编码、改造注意力机制和检索增强RAG，但各自存在推理成本高、效率提升有限或响应速度慢等局限性[15][18][21][23] Glyph技术方案的核心创新 - Glyph采用将文本渲染成图像的新范式，利用图像更高的信息密度实现Token压缩，仅需一个视觉Token就能容纳原先需要好几个文本Token的内容[25][26][30] - 该方案使固定上下文的视觉语言模型能够处理超长文本，例如将240K文本Token的《简·爱》压缩至约80K视觉Token，让128K上下文的模型可以处理完整内容[32][34][36] - 训练流程分为持续预训练、LLM驱动的渲染搜索和后训练三个阶段，通过遗传算法优化渲染参数，并在SFT和RL阶段加入辅助OCR对齐任务[37][39][43][44] 技术性能表现 - Glyph在多项长上下文基准测试中实现了3-4倍的Token压缩率，同时保持与主流模型相当的准确度[49] - 该技术带来约4倍的prefill与解码速度提升，以及约2倍的SFT训练加速，显著减轻算力负担[51] - 在极端压缩情况下，128K上下文的视觉语言模型能够应对相当于百万Token级的文本任务[60] 视觉Token的行业影响 - 视觉Token技术大幅提升处理效率，DeepSeek-OCR仅用100个视觉Token就能在原本需要800个文本Token的文档上取得97.3%的准确率[72] - 效率提升显著降低AI应用门槛，单张NVIDIA A100-40G GPU每天可处理超过20万页文档，仅需一百多张卡即可完成一次完整的模型预训练[74][75] - 视觉Token可能从底层重塑大语言模型的信息处理方式，未来像素可能取代文本成为下一代AI的基本信息单元[76][77]

泰对外贸易厅支持企业使用 DFT SMART C/O 系统推动泰国出口

商务部网站· 2025-09-18 15:49

技术升级与系统优势 - 对外贸易厅持续升级DFT SMART-I系统，引入人工智能和OCR技术，推动进出口许可和认证服务全面数字化[1] - 系统优势包括企业仅凭身份证即可在线申请与追踪进度，获批文件可自助打印，并提供电子支付，无需亲自前往领取，大幅节省时间与成本[1] 系统应用成果 - 2023年12月15日至2025年8月期间，已通过DFT SMART C/O系统签发12类原产地证书[1] - 签发的证书覆盖RCEP、东盟系列协定、泰日、泰澳、泰秘鲁及出口欧盟的特定商品[1] 战略目标 - 技术升级旨在便利企业、降低成本，并提升泰国产品在国际市场的竞争力[1]

进出口贸易

DFT SMART C/O系统

进出口贸易

DFT SMART C/O系统