DeepOCR - 财报，业绩电话会，研报，新闻

DeepOCR

搜索文档

两周复刻DeepSeek-OCR，两人小团队还原低token高压缩核心，换完解码器更实用

36氪· 2025-11-07 15:11

技术复刻与核心优势 - 两人小团队在两周内成功复刻了DeepSeek-OCR，复刻版名为DeepOCR，完全开源且无需依赖大规模算力集群，仅需两张H200即可完成训练[1] - 复刻版还原了原版低token高压缩的核心优势，在关键任务上表现接近原版，其设计思想是通过少量视觉token表示大量文本内容，以降低大模型处理长文本的计算开销[3] - 核心压缩逻辑有效，DeepOCR使用约250个视觉tokens，而基线模型Qwen2.5-VL-7B需要3949个tokens才能达到类似效果，压缩比可达7-20倍，在10倍压缩下准确率保持97%[3][15] 架构设计与技术实现 - 复刻版精准还原了原版DeepEncoder编码器的“局部处理-压缩-全局理解”三阶段串联结构，采用SAM-base处理图像、16×卷积压缩器压缩token、CLIP-large进行全局语义理解[6] - 在解码器上做了务实调整，将原版DeepSeek-3B-MoE替换为与VILA训练框架兼容性更好且完全开源的Qwen2-7B-Instruct，降低了技术落地门槛[9] - 采用两阶段训练流程并全程冻结DeepEncoder，大幅降低显存需求，训练方案可在2×H200 GPU上运行，适配中小团队资源条件[13] 性能表现与基准测试 - 在基础任务中，英文文本识别和表格解析表现突出，表格解析甚至优于原版，这得益于对原版2D空间编码的精准还原[15] - 在olmOCR基准测试中，简单文档的基础OCR能力扎实，与原版表现接近，但在复杂任务上因训练数据限制与原版存在客观差距[16][17] - 团队计划通过补充公式、多语言等训练数据，并应用动态温度缩放、RLVR等技术以缩小复杂任务上的性能差距[18] 团队背景与项目信息 - 核心团队成员Ming Liu拥有北京大学物理硕士学位，目前为爱荷华州立大学计算机博士，研究方向为多模态，曾在亚马逊担任应用科学家实习生[19] - 另一成员刘世隆拥有清华大学工学学士和计算机博士学位，现为普林斯顿大学人工智能实验室博士后研究员，研究方向包括LLM智能体、多模态等，曾有字节跳动、英伟达和微软经历[20] - 项目已完全开源，代码和项目主页均已公开[22]

两周复刻DeepSeek-OCR！两人小团队还原低token高压缩核心，换完解码器更实用

量子位· 2025-11-07 13:32

技术突破与核心优势 - 提出“视觉压缩一切”的设计思想，通过将文字渲染成图片，用视觉模态作为压缩媒介，解决大模型处理长文本时的算力爆炸难题[4] - 实现7-20倍的压缩比，在10倍压缩下准确率仍能保持97%，仅需约250个视觉tokens即可承载原本需要3949个文本tokens的内容[7][22] - 复刻版DeepOCR严格遵循原版三阶段串联结构（局部处理-压缩-全局理解），采用SAM-base处理图像、16×卷积压缩器削减token数量、CLIP-large抓取文档语义，有效控制内存占用[10] 技术实现与架构 - 编码器采用“局部处理-压缩-全局理解”三阶段设计：第一步用SAM-base将1024×1024图像切成16×16补丁生成4096个初始token；第二步用卷积压缩器将token从4096个削减至256个；第三步由CLIP-large处理压缩后的tokens进行全局理解[10] - 模型将CLIP的补丁特征和展平后的SAM特征拼接，输出2048维的融合特征[11] - 使用Qwen2-7B-Instruct作为大语言模型替代原版选择，因与VILA训练框架兼容性更好且完全开源，在保持核心能力的同时降低了落地门槛[16][17] 训练效率与资源需求 - 采用两阶段训练流程并全程冻结DeepEncoder，大幅降低显存需求：第一阶段仅训练多模态投影仪，采用512全局batch size和1e-3学习率；第二阶段进行全模型预训练，batch size降至32，学习率调整为5e-5[20] - 整套训练方案可在2张H200 GPU上完成，体现出显著的低算力友好特性，适配中小团队资源条件[19][21] 性能表现与基准测试 - 在基础任务中表现突出，英文文本识别和表格解析能力优秀，表格解析甚至优于原版，得益于对原版2D空间编码的精准还原[24] - 在olmOCR基准测试中，简单文档的基础OCR能力扎实，与原版表现接近[26] - 与现有模型对比，DeepOCR在关键指标上展现出竞争力，如在特定任务中超越部分基线模型[26][27] 团队背景与项目进展 - 开发团队由两名成员组成：Ming Liu（北京大学物理硕士，爱荷华州立大学计算机博士在读，曾任亚马逊应用科学家实习生）和刘世隆（清华大学博士，普林斯顿大学博士后，曾任字节Seed团队科研人员）[29][31][32] - 项目完全开源，代码和项目主页已公开，当前版本与原版的差距主要源于训练数据限制而非架构问题[27][33] - 团队计划通过补充公式、多语言、旧扫描件等训练数据，并应用动态温度缩放、RLVR等技术进一步缩小复杂任务上的性能差距[28]