Workflow
DeepOCR
icon
搜索文档
两周复刻DeepSeek-OCR,两人小团队还原低token高压缩核心,换完解码器更实用
36氪· 2025-11-07 15:11
技术复刻与核心优势 - 两人小团队在两周内成功复刻了DeepSeek-OCR,复刻版名为DeepOCR,完全开源且无需依赖大规模算力集群,仅需两张H200即可完成训练[1] - 复刻版还原了原版低token高压缩的核心优势,在关键任务上表现接近原版,其设计思想是通过少量视觉token表示大量文本内容,以降低大模型处理长文本的计算开销[3] - 核心压缩逻辑有效,DeepOCR使用约250个视觉tokens,而基线模型Qwen2.5-VL-7B需要3949个tokens才能达到类似效果,压缩比可达7-20倍,在10倍压缩下准确率保持97%[3][15] 架构设计与技术实现 - 复刻版精准还原了原版DeepEncoder编码器的“局部处理-压缩-全局理解”三阶段串联结构,采用SAM-base处理图像、16×卷积压缩器压缩token、CLIP-large进行全局语义理解[6] - 在解码器上做了务实调整,将原版DeepSeek-3B-MoE替换为与VILA训练框架兼容性更好且完全开源的Qwen2-7B-Instruct,降低了技术落地门槛[9] - 采用两阶段训练流程并全程冻结DeepEncoder,大幅降低显存需求,训练方案可在2×H200 GPU上运行,适配中小团队资源条件[13] 性能表现与基准测试 - 在基础任务中,英文文本识别和表格解析表现突出,表格解析甚至优于原版,这得益于对原版2D空间编码的精准还原[15] - 在olmOCR基准测试中,简单文档的基础OCR能力扎实,与原版表现接近,但在复杂任务上因训练数据限制与原版存在客观差距[16][17] - 团队计划通过补充公式、多语言等训练数据,并应用动态温度缩放、RLVR等技术以缩小复杂任务上的性能差距[18] 团队背景与项目信息 - 核心团队成员Ming Liu拥有北京大学物理硕士学位,目前为爱荷华州立大学计算机博士,研究方向为多模态,曾在亚马逊担任应用科学家实习生[19] - 另一成员刘世隆拥有清华大学工学学士和计算机博士学位,现为普林斯顿大学人工智能实验室博士后研究员,研究方向包括LLM智能体、多模态等,曾有字节跳动、英伟达和微软经历[20] - 项目已完全开源,代码和项目主页均已公开[22]
两周复刻DeepSeek-OCR!两人小团队还原低token高压缩核心,换完解码器更实用
量子位· 2025-11-07 13:32
技术突破与核心优势 - 提出“视觉压缩一切”的设计思想,通过将文字渲染成图片,用视觉模态作为压缩媒介,解决大模型处理长文本时的算力爆炸难题[4] - 实现7-20倍的压缩比,在10倍压缩下准确率仍能保持97%,仅需约250个视觉tokens即可承载原本需要3949个文本tokens的内容[7][22] - 复刻版DeepOCR严格遵循原版三阶段串联结构(局部处理-压缩-全局理解),采用SAM-base处理图像、16×卷积压缩器削减token数量、CLIP-large抓取文档语义,有效控制内存占用[10] 技术实现与架构 - 编码器采用“局部处理-压缩-全局理解”三阶段设计:第一步用SAM-base将1024×1024图像切成16×16补丁生成4096个初始token;第二步用卷积压缩器将token从4096个削减至256个;第三步由CLIP-large处理压缩后的tokens进行全局理解[10] - 模型将CLIP的补丁特征和展平后的SAM特征拼接,输出2048维的融合特征[11] - 使用Qwen2-7B-Instruct作为大语言模型替代原版选择,因与VILA训练框架兼容性更好且完全开源,在保持核心能力的同时降低了落地门槛[16][17] 训练效率与资源需求 - 采用两阶段训练流程并全程冻结DeepEncoder,大幅降低显存需求:第一阶段仅训练多模态投影仪,采用512全局batch size和1e-3学习率;第二阶段进行全模型预训练,batch size降至32,学习率调整为5e-5[20] - 整套训练方案可在2张H200 GPU上完成,体现出显著的低算力友好特性,适配中小团队资源条件[19][21] 性能表现与基准测试 - 在基础任务中表现突出,英文文本识别和表格解析能力优秀,表格解析甚至优于原版,得益于对原版2D空间编码的精准还原[24] - 在olmOCR基准测试中,简单文档的基础OCR能力扎实,与原版表现接近[26] - 与现有模型对比,DeepOCR在关键指标上展现出竞争力,如在特定任务中超越部分基线模型[26][27] 团队背景与项目进展 - 开发团队由两名成员组成:Ming Liu(北京大学物理硕士,爱荷华州立大学计算机博士在读,曾任亚马逊应用科学家实习生)和刘世隆(清华大学博士,普林斯顿大学博士后,曾任字节Seed团队科研人员)[29][31][32] - 项目完全开源,代码和项目主页已公开,当前版本与原版的差距主要源于训练数据限制而非架构问题[27][33] - 团队计划通过补充公式、多语言、旧扫描件等训练数据,并应用动态温度缩放、RLVR等技术进一步缩小复杂任务上的性能差距[28]