PaddleOCR
搜索文档
全球OCR新王来自中国开源!GitHub狂揽73300+Star
量子位· 2026-03-30 18:36
PaddleOCR登顶全球OCR项目榜首 - 百度文心衍生模型PaddleOCR以73300+ Star数量,正式超越谷歌旗下统治OCR领域近40年的Tesseract OCR,登顶GitHub全球OCR项目榜[2] - 这是中国开源项目在OCR这一基础赛道上,首次拿下全球Star数量第一[2] - 在Hugging Face平台上,PaddleOCR也长期处于OCR与文档解析领域的头部位置,成为全球开发者的必备工具[3] PaddleOCR的技术演进与核心优势 - PaddleOCR诞生于2020年,是深度学习时代原生基于深度学习技术构建的模型[13] - 2023年后,受益于文心大模型的持续高速迭代,PaddleOCR获得了全新的能力天花板[13] - PaddleOCR与文心大模型形成双向赋能:PaddleOCR负责高精度文本提取,为大模型提供“食材”;文心大模型负责多模态理解与结构化输出,并反哺PaddleOCR理解复杂文档逻辑[14] - 基于文心大模型技术底座,PaddleOCR-VL、PaddleOCR-VL-1.5等核心模型相继推出[17] PaddleOCR-VL系列模型的突破性表现 - 2025年10月开源的PaddleOCR-VL模型,参数量仅0.9B,在全球权威文档解析评测榜单OmniDocBench V1.5上取得92.6分,综合性能全球第一,超越Gemini-2.5 Pro、GPT-4o等大模型[20] - 2026年1月底开源的新一代模型PaddleOCR-VL-1.5,参数量同样为0.9B,在OmniDocBench V1.5上的整体精度提升至94.5%,超过Gemini-3-Pro、GPT-5.2等模型,再次位列全球综合性能第一[22] - PaddleOCR-VL-1.5实现了全球首次“异形框定位”,能精准识别倾斜、弯折、拍照畸变等非规则文档形态[23] - PaddleOCR-VL发布后16小时内,冲上HuggingFace Trending、ModelScope Trending、HuggingFace Paper Trending全球第一,并持续五天登顶[24] 底层技术创新的关键:数据与架构优化 - PP-OCRv5模型参数仅5M,通过“以数据为中心”的系统化优化策略,在手写、多语言、自然场景下的表现超越GPT-4o等千亿参数大模型[31][32] - 优化策略从数据难度、数据准确性、数据多样性三个维度,重构了OCR模型的数据训练策略[35] - 研究发现模型训练存在“难度甜点区”,中等难度数据训练效率最高;特征多样性比盲目堆砌数据量更重要;小模型对标签噪声有强鲁棒性[37] - 在内部测试中,PP-OCRv5加权准确率从PP-OCRv4的53.0%大幅提升至80.1%[39] - PaddleOCR-VL采用“由粗到细”架构,先用轻量级模块定位文档关键区域,再让0.9B模型只处理这些区域,将视觉Token数量降至竞品的1/3到1/2,同时实现更高精度[45][46] 行业竞争格局与OCR的战略价值 - 近半年来,OCR赛道迎来集体爆发,百度、DeepSeek、Allen AI、腾讯、Mistral等国内外巨头和创业公司密集发布新模型[49][50][52][53] - Hugging Face模型趋势榜一度被OCR模型“屠榜”[51] - 行业爆发的核心驱动力是“数据”,互联网公开高质量数据面临枯竭,而大量有价值信息沉淀于文档、合同、表格等离线载体中[62] - OCR是解锁这些非结构化信息、将其转化为机器可处理文本的关键工具,其角色已从文档提取器转变为大模型数据生态的基座和Agent理解真实世界的“眼睛”[63][65] - 未来OCR竞争将向场景化(深耕金融、医疗等垂直领域)和端云协同方向发展,并与多模态大模型、Agent进行更深度融合[69][70] 市场影响与生态发展 - PaddleOCR用户已覆盖全球160个国家和地区,支持110多种语言识别[25] - 公司同步升级服务,官网免费每日解析页数翻番,从1万页提升至2万页[7] - 用户可通过OpenClaw直接调用PaddleOCR Skill,为其接入专业视觉能力[7] - PaddleOCR OCEAN生态联盟发布,面向核心开源贡献者、企业用户、模型托管平台及硬件厂商等OCR上下游伙伴,推动OCR能力在更广泛场景中落地[7] - PaddleOCR的登顶标志着中国开源整体实力和全球影响力的加速赶超,在越来越多的赛道上拿出世界级表现[71][72]
今日暴论:Deepseek-OCR干翻了所有架构
自动驾驶之心· 2025-10-27 08:03
技术突破 - DeepSeek发布新模型DeepSeek-OCR,其核心创新在于使用图像作为AI的“记忆载体”,而非传统的文字token [3][6][7] - 该技术可将大量文字信息转化为一张图片进行存储,实现极高的信息压缩比,仅需原本十分之一的token即可存储几乎相同的文字信息 [1][12][40] - 在文档理解任务测试中,DeepSeek-OCR仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0模型,用不到800个视觉token就超越了平均需要6000+ token的MinerU 2.0模型 [13][14] 性能优势 - 模型支持多种分辨率和压缩模式以适应不同复杂度的文档,例如仅需64个视觉token表示简单PPT,最多400个视觉token处理文字密集内容,并支持动态调整的Gundam模式 [18][19][20] - 使用图像记忆后,模型能将token数量压缩至原本的十分之一,同时性能损失极小,在压缩10倍时准确率可达原模型的96.5%,即使压缩20倍准确率仍能保持约60% [40][41] - 该技术能显著降低模型计算量,因为对话长度增加一倍会导致计算量增加四倍,而视觉token的运用能有效控制成本 [36][37][38] 数据处理能力 - DeepSeek-OCR不仅能识别文字,还能自动提取并转换复杂信息,例如将论文中的柱状图识别为Excel格式,将有机化合物分子结构图片转化为SMILES格式 [22][24] - 模型会同时记忆图片本身及其位置信息,以及图片附近的文字内容,从而捕获过去被忽略的二维信息 [26][27][32] - 该模型具备高效的数据采集能力,在一张A100显卡上一天可处理20万页以上的训练数据,有望将现有数据重新识别一遍以补充高质量训练数据集 [28][29][35] 技术生态与影响 - DeepSeek-OCR是一个开源项目,其训练数据整合了华为的Wukong数据集,生成样本时借助了百度的PaddleOCR,图像特征提取使用了Meta的SAM,视觉语义理解整合了OpenAI的CLIP模型 [51][53] - 该技术引入了一种类似人类遗忘机制的信息存储方式,近期重要信息以高清晰度存储,而早期不重要信息可压缩存储,这可能增强模型的上下文处理能力 [43][45][47] - 这项突破有望解决行业面临的高质量训练数据短缺问题,因为许多过去未被采集的二维信息(如论文图表)现在可以被有效利用 [32][33][35]
DeepSeek开源的新模型,有点邪门
创业邦· 2025-10-25 18:14
技术突破与核心优势 - 推出新型模型DeepSeek-OCR,其核心创新在于使用图像作为AI的“记忆载体”,颠覆了过去大模型仅依赖文字token处理信息的传统方式[9] - 新模型实现了极高的信息压缩效率,仅用原本十分之一的token数量就能存储几乎相同的文字信息,在测试中仅用100个视觉token就超越了需要256个token的GOT-OCR 2.0模型,用不到800个视觉token就超越了平均需要6000+ token的MinerU 2.0模型[11] - 模型支持多种分辨率和压缩模式以适应不同复杂度文档,从仅需64个视觉token的Tiny模式到支持动态调整的Gundam模式,实现了应记就记、分清轻重缓急的记忆策略[14] 性能表现与效率提升 - 在文档理解任务中,DeepSeek-OCR用仅1/10的token数量就能达到原模型96.5%的准确率,即使压缩20倍,模型准确率仍能保持六成左右[26][27] - 采用图像记忆方式后,大模型运行更省资源,有效解决了长上下文对话中计算量呈平方级增长的问题,将对话长度增加一倍带来的计算量从增加四倍优化到更可控的水平[24] 应用扩展与数据价值 - 新模型能够识别并转换多种复杂格式信息,可将论文中的柱状图自动识别为Excel格式保存,将有机化合物的分子结构图片转化为标准的SMILES格式存储[15][17] - 该技术解决了大模型训练数据短缺的行业难题,能够从二维信息中采集过去无法获取的数据,如论文中的图表和插图信息,在一张A100上一天可采集20万页以上的训练数据[18][22][24] 技术特点与创新理念 - 模型通过不同清晰度存储图像的方式模拟了人类遗忘信息的渐进过程,最近的聊天记录可用高清晰度格式存储,而早年不重要的记录则可压缩保存,这一理念可能增强大模型的上下文能力[28][30][31] - 该研究是开源社区集体成果的整合,训练数据使用了华为的Wukong数据集,生成样本文字借助了百度的PaddleOCR,图像特征提取核心组件采用Meta开源的SAM,视觉语义理解整合了OpenAI的CLIP模型[32]
DeepSeek昨天开源的新模型,有点邪门
36氪· 2025-10-22 09:00
技术突破与核心优势 - 发布新模型DeepSeek-OCR,其核心创新在于使用图像作为信息的“记忆载体”,而非传统的文字token [5][9] - 该技术实现了极高的信息压缩比,仅用原本十分之一的token即可存储几乎相同的文字信息,在测试中能以100个视觉token超越需要256个token的GOT-OCR 2.0,用不到800个视觉token超越平均需6000+ token的MinerU 2.0 [1][14] - 模型支持多种分辨率和压缩模式以适应不同复杂度的文档,包括Tiny(64 token)、Small(100 token)、Base(256 token)、Large(400 token)以及可动态调整的Gundam模式 [17] 数据处理与应用能力 - DeepSeek-OCR不仅能识别和存储文字,还能处理二维信息,例如将论文中的柱状图自动识别为Excel格式,将有机化合物的分子结构图片转化为SMILES格式存储 [18][20] - 该技术能捕获图片位置及其附近文字等过去被忽略的二维信息,为模型训练提供了新的高质量数据来源,在一张A100显卡上一天可采集超过20万页训练数据 [23][24][26][29] - 通过将大量文字转化为图片进行存储,模型能够用更少的计算资源取得更好的表达效果,解决了长上下文对话中计算量随对话长度平方级增长的成本问题 [29][31] 性能表现与效率提升 - 在性能测试中,DeepSeek-OCR使用十分之一的token数量即可达到原模型96.5%的准确率,即使压缩20倍,准确率仍能保持在60%左右 [31] - 模型引入了类似人类记忆的渐进式存储概念,可根据信息重要性动态调整存储清晰度,从高清晰的“Gundam模式”到低清晰的“Tiny模式”,实现资源的优化配置 [33][35][36] - 这种创新的存储方式有望增强大模型的上下文处理能力,通过“主动遗忘”机制区分信息优先级,但该设想尚未有明确结论 [37] 行业影响与开源生态 - 该技术突破解决了行业面临的高质量训练数据匮乏问题,使得过去未被充分利用的二维信息(如论文图表)得以成为新的数据来源 [24][26] - DeepSeek-OCR是一个开源项目,其成果融合了全球开源社区的贡献,包括华为的Wukong数据集、百度的PaddleOCR、Meta的SAM以及OpenAI的CLIP模型 [38] - 该模型的开源特性预计将推动相关技术成为行业研究热点,催生更多创新应用 [38]
百度PaddleOCR累计下载量突破900万
新浪财经· 2025-09-18 17:06
技术突破 - 公司推出轻量级文字识别模型PP-OCRv5 参数量仅0.07B(700万)[1] - 模型以千分之一参数量实现与700亿参数大模型相媲美的OCR精度[1] 开源生态 - PaddleOCR自2020年开源以来累计下载量突破900万次[1] - 被超过5.9k开源项目直接或间接使用[1] - 成为GitHub社区中唯一Star数超过50k的中国OCR项目[1]
前OpenAI、DeepMind研究员领衔,50+位专家谈AI编程、Agent与具身智能,2025全球机器学习技术大会议程首发!
AI科技大本营· 2025-08-29 18:06
大会概况 - 2025全球机器学习技术大会将于10月16-17日在北京威斯汀酒店举行 汇聚50余位重量级嘉宾 聚焦AI从技术突破到产业落地的硬核攻坚战 [1][3] - 大会设置12大核心专题 包括大语言模型技术演进 智能体工程 多模态与世界模型 AI赋能软件研发 大模型应用开发 GenAI产品创新 具身智能 行业落地实践 开源模型与框架 大模型系统架构 AI基础设施及算力优化 [3] - 大会旨在穿透技术喧嚣 直击产业落地要害 提供AI全栈作战地图导航 [3][4] 智能体与多智能体系统 - 京东零售开源多智能体协作框架OxyGent 将工具 模型和智能体抽象为可插拔模块 支持开发者灵活组合构建高扩展性系统 具备全链路决策追溯能力 [37][38] - 智谱AI展示LLM Agent在软件工程领域的应用 使大语言模型能自主规划 调用工具并完成复杂任务 [55][57] 多模态大模型技术 - 理想汽车推出MindGPT-4o-Audio实时语音对话模型 实现全双工低延迟端到端交互 支持边听边说 语音知识问答 多角色高表现力生成及外部工具调用 [14] - 360人工智能研究院研发FG-CLIP模型 突破传统CLIP整体语义优先导致的细节缺失瓶颈 在保证高并发低延迟前提下显著提升图文对齐精度 [16][17][19] - 小红书应用多模态大模型于搜索业务 覆盖以图搜图 图片搜索 视频搜索及多模态AI搜索四大场景 并深入内容理解及RAG系统实践 [33] - 昆仑万维推出Skywork-r1v系列多模态思维链推理模型 实现文本推理能力向视觉任务迁移 r1v3模型推理速度提升6倍 MMMU达76.0 接近人类初级专家水平 [42] 大模型训练与部署优化 - 百度开源文心4.5系列大模型 分享ERNIEKit和FastDeploy在精调与高效推理中的技术突破 [25][27][29] - 清华大学研发端侧高效模型MiniCPM 通过稀疏注意力 UltraClean数据策略 BitCPM三值量化及CPM cu推理引擎 在端侧芯片实现5倍以上推理加速 [49] 计算机视觉与OCR技术 - 百度飞桨推出PaddleOCR 3.0系列 包括新一代通用文字识别模型PP-OCRv5 文档解析工具PP-StructureV3及OCR+LLM关键信息抽取方案PP-ChatOCRv4 [46] - 国星宇航分享AI视觉算法产品落地经验 涵盖从实验室原型到亿级用户产品的全周期研发 聚焦数据工程优化 模型轻量化部署及算法性能与用户体验平衡 [24] 自动驾驶与具身智能 - 驭势科技应用AI大模型突破L4级自动驾驶"99分困局" 推动多场景全天候真无人驾驶商业化落地 [61] - 网易伏羲机器人将具身智能技术应用于工程机械智能化 构建基于远控设备的具身智能数据闭环 开发端到端挖掘机自动装车模型 [53] AI安全与可靠性 - 中国电信研究院聚焦AI安全与治理 剖析大模型时代安全风险 伦理挑战及治理方案 [5][7][8][9] - 北京邮电大学研究不确定性建模 从校准方法 三类不确定性来源分析到消减策略 提升AI模型在复杂场景中的可靠性和安全性 [66][69] 嘉宾阵容 - 大会汇聚产学研顶尖力量 包括奇点智能研究院 清华大学 新浪微博 中国人民大学 群核科技 清程极智 哔哩哔哩 阿里淘天 腾讯混元 字节跳动 小红书 百度 智谱AI等机构专家 [73]