光学压缩逻辑
搜索文档
两周复刻DeepSeek-OCR,两人小团队还原低token高压缩核心,换完解码器更实用
36氪· 2025-11-07 15:11
技术复刻与核心优势 - 两人小团队在两周内成功复刻了DeepSeek-OCR,复刻版名为DeepOCR,完全开源且无需依赖大规模算力集群,仅需两张H200即可完成训练[1] - 复刻版还原了原版低token高压缩的核心优势,在关键任务上表现接近原版,其设计思想是通过少量视觉token表示大量文本内容,以降低大模型处理长文本的计算开销[3] - 核心压缩逻辑有效,DeepOCR使用约250个视觉tokens,而基线模型Qwen2.5-VL-7B需要3949个tokens才能达到类似效果,压缩比可达7-20倍,在10倍压缩下准确率保持97%[3][15] 架构设计与技术实现 - 复刻版精准还原了原版DeepEncoder编码器的“局部处理-压缩-全局理解”三阶段串联结构,采用SAM-base处理图像、16×卷积压缩器压缩token、CLIP-large进行全局语义理解[6] - 在解码器上做了务实调整,将原版DeepSeek-3B-MoE替换为与VILA训练框架兼容性更好且完全开源的Qwen2-7B-Instruct,降低了技术落地门槛[9] - 采用两阶段训练流程并全程冻结DeepEncoder,大幅降低显存需求,训练方案可在2×H200 GPU上运行,适配中小团队资源条件[13] 性能表现与基准测试 - 在基础任务中,英文文本识别和表格解析表现突出,表格解析甚至优于原版,这得益于对原版2D空间编码的精准还原[15] - 在olmOCR基准测试中,简单文档的基础OCR能力扎实,与原版表现接近,但在复杂任务上因训练数据限制与原版存在客观差距[16][17] - 团队计划通过补充公式、多语言等训练数据,并应用动态温度缩放、RLVR等技术以缩小复杂任务上的性能差距[18] 团队背景与项目信息 - 核心团队成员Ming Liu拥有北京大学物理硕士学位,目前为爱荷华州立大学计算机博士,研究方向为多模态,曾在亚马逊担任应用科学家实习生[19] - 另一成员刘世隆拥有清华大学工学学士和计算机博士学位,现为普林斯顿大学人工智能实验室博士后研究员,研究方向包括LLM智能体、多模态等,曾有字节跳动、英伟达和微软经历[20] - 项目已完全开源,代码和项目主页均已公开[22]