Two-stream Attention Mechanism
搜索文档
DeepSeek开源全新OCR模型!弃用CLIP改用Qwen轻量小模型,性能媲美Gemini-3 Pro
量子位· 2026-01-27 16:32
核心观点 - DeepSeek开源了其全新的OCR模型DeepSeek-OCR 2,核心功能是将PDF文档精准转换为Markdown格式 [1] - 该模型的核心突破在于摒弃了传统的“光栅扫描”逻辑,引入了基于图像语义动态重排视觉标记的能力,从而模拟人类阅读的因果视觉流 [2][3] - 在性能上,该模型仅采用轻量模型,但达到了媲美谷歌Gemini-3 Pro的效果,并在OmniDocBench v1.5基准上实现了3.73%的性能提升 [4][5] 技术架构与核心升级 - **核心升级:DeepEncoder V2**:模型的核心升级在于编码器部分,用轻量化的语言模型Qwen2-0.5B替换了前作中的CLIP组件,构建了DeepEncoder V2,使其在视觉编码阶段就具备了因果推理能力 [2][10][16] - **工作原理**:新的编码器通过一种“双流注意力机制”和定制的注意力掩码,实现了对视觉标记的智能重排,使其在进入主解码器前就理顺了逻辑顺序,弥合了2D空间结构与1D语言建模之间的鸿沟 [16][18][19][20][21][22] - **其他组件**: - 视觉分词器沿用80M参数的SAM-base架构,输出维度从1024优化至896,实现了16倍的标记压缩,减轻了计算压力 [23][24][25] - 编码阶段引入灵活裁剪方案,最终输入LLM的视觉标记总数稳定在256到1120之间 [27] - 后端解码器保留了3B参数的MoE结构,实际激活参数约500M [28] 性能表现与基准测试 - **基准测试结果**:在OmniDocBench v1.5基准(包含1355个页面)上,DeepSeek-OCR 2的“Overall”得分达到91.09%,相比其前代模型(DeepSeek-OCR (9-crops))的87.36%提升了3.73个百分点 [5][6][35] - **细分指标提升**:在多个细分任务上均有显著提升,其中公式识别(Formula OM)得分从84.14%提升至90.31%(提升6.17个百分点),表格识别(TableTEDs)得分从85.25%提升至87.75%(提升2.5个百分点),阅读顺序编辑距离(R-orderEdit)从0.085降至0.057 [6][36] - **与竞品对比**: - 在相似的视觉标记预算(1120个)下,其整体文档解析编辑距离(OverallEdit)为0.100,优于谷歌Gemini-3 Pro的0.115 [37][38] - 其性能超越了包括GPT-4o、Qwen2.5-VL-72B、Gemini-2.5 Pro、Qwen3-VL-235B在内的多个先进大模型 [6][34] 训练流程与数据策略 - **数据策略**:训练数据中OCR相关数据占比达80%,并进行了采样均衡化(正文、公式、表格按3:1:1比例划分)和标签精简化(合并语义相似的布局标签)优化 [29][30] - **训练流程**:采用三阶段训练流程,包括编码器预训练(通过下一标记预测任务)、查询增强(联合优化编码器和解码器)以及解码器微调(仅优化解码器) [31][38] - **生产效果**:实际生产数据显示,在线用户日志的重复率从6.25%降至4.17%,PDF生产数据重复率从3.69%降至2.88%,证明了模型逻辑视觉理解能力的提升 [38][39] 团队背景与行业影响 - **核心团队**:论文的三位作者魏浩然、孙耀峰、李宇琨在AI领域有深厚背景,曾参与或主导过阶跃星辰GOT-OCR2.0、幻方AI大模型以及DeepSeek V2/V3等多款知名模型的研发 [40][41][43][45] - **学术贡献**:团队成员过往的研究成果(如DeepSeek-R1, DeepSeek-V3, ERNIE系列)在学术界有广泛影响力,引用次数高达数千次 [46] - **开源与可及性**:DeepSeek-OCR 2延续了团队的开源策略,项目代码、模型权重及论文已在GitHub和HuggingFace平台全面公开 [49][50]