Two-stream Attention Mechanism - 财报，业绩电话会，研报，新闻

Two-stream Attention Mechanism

搜索文档

DeepSeek开源全新OCR模型！弃用CLIP改用Qwen轻量小模型，性能媲美Gemini-3 Pro

量子位· 2026-01-27 16:32

核心观点 - DeepSeek开源了其全新的OCR模型DeepSeek-OCR 2，核心功能是将PDF文档精准转换为Markdown格式 [1] - 该模型的核心突破在于摒弃了传统的“光栅扫描”逻辑，引入了基于图像语义动态重排视觉标记的能力，从而模拟人类阅读的因果视觉流 [2][3] - 在性能上，该模型仅采用轻量模型，但达到了媲美谷歌Gemini-3 Pro的效果，并在OmniDocBench v1.5基准上实现了3.73%的性能提升 [4][5] 技术架构与核心升级 - **核心升级：DeepEncoder V2**：模型的核心升级在于编码器部分，用轻量化的语言模型Qwen2-0.5B替换了前作中的CLIP组件，构建了DeepEncoder V2，使其在视觉编码阶段就具备了因果推理能力 [2][10][16] - **工作原理**：新的编码器通过一种“双流注意力机制”和定制的注意力掩码，实现了对视觉标记的智能重排，使其在进入主解码器前就理顺了逻辑顺序，弥合了2D空间结构与1D语言建模之间的鸿沟 [16][18][19][20][21][22] - **其他组件**： - 视觉分词器沿用80M参数的SAM-base架构，输出维度从1024优化至896，实现了16倍的标记压缩，减轻了计算压力 [23][24][25] - 编码阶段引入灵活裁剪方案，最终输入LLM的视觉标记总数稳定在256到1120之间 [27] - 后端解码器保留了3B参数的MoE结构，实际激活参数约500M [28] 性能表现与基准测试 - **基准测试结果**：在OmniDocBench v1.5基准（包含1355个页面）上，DeepSeek-OCR 2的“Overall”得分达到91.09%，相比其前代模型（DeepSeek-OCR (9-crops)）的87.36%提升了3.73个百分点 [5][6][35] - **细分指标提升**：在多个细分任务上均有显著提升，其中公式识别（Formula OM）得分从84.14%提升至90.31%（提升6.17个百分点），表格识别（TableTEDs）得分从85.25%提升至87.75%（提升2.5个百分点），阅读顺序编辑距离（R-orderEdit）从0.085降至0.057 [6][36] - **与竞品对比**： - 在相似的视觉标记预算（1120个）下，其整体文档解析编辑距离（OverallEdit）为0.100，优于谷歌Gemini-3 Pro的0.115 [37][38] - 其性能超越了包括GPT-4o、Qwen2.5-VL-72B、Gemini-2.5 Pro、Qwen3-VL-235B在内的多个先进大模型 [6][34] 训练流程与数据策略 - **数据策略**：训练数据中OCR相关数据占比达80%，并进行了采样均衡化（正文、公式、表格按3:1:1比例划分）和标签精简化（合并语义相似的布局标签）优化 [29][30] - **训练流程**：采用三阶段训练流程，包括编码器预训练（通过下一标记预测任务）、查询增强（联合优化编码器和解码器）以及解码器微调（仅优化解码器） [31][38] - **生产效果**：实际生产数据显示，在线用户日志的重复率从6.25%降至4.17%，PDF生产数据重复率从3.69%降至2.88%，证明了模型逻辑视觉理解能力的提升 [38][39] 团队背景与行业影响 - **核心团队**：论文的三位作者魏浩然、孙耀峰、李宇琨在AI领域有深厚背景，曾参与或主导过阶跃星辰GOT-OCR2.0、幻方AI大模型以及DeepSeek V2/V3等多款知名模型的研发 [40][41][43][45] - **学术贡献**：团队成员过往的研究成果（如DeepSeek-R1, DeepSeek-V3, ERNIE系列）在学术界有广泛影响力，引用次数高达数千次 [46] - **开源与可及性**：DeepSeek-OCR 2延续了团队的开源策略，项目代码、模型权重及论文已在GitHub和HuggingFace平台全面公开 [49][50]

OCR

Causal Reasoning

Two-stream Attention Mechanism

Artificial Intelligence

Two-stream Attention Mechanism

Artificial Intelligence

DeepSeek-OCR 2

CLIP