DeepSeek开源新模型,用视觉方式压缩一切
Seek .Seek .(US:SKLTY) 观察者网·2025-10-20 18:47

模型发布与技术概览 - DeepSeek于10月20日再度开源新模型DeepSeek-OCR,这是一款光学字符识别模型,参数量为3B [1] - 该项目由三位研究员共同完成,其中一作Haoran Wei曾主导开发在GitHub上收获超7800 star的GOT-OCR2.0系统 [1] - 模型通过光学二维映射将文本内容压缩到视觉像素中来实现高效压缩长文本上下文 [3] 核心技术架构 - 模型由DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器两大核心组件构成 [3] - DeepEncoder能保持高分辨率输入下的低激活状态,并实现高压缩比以生成数量适中的视觉token [3] - 解码器采用混合专家机制,使3B参数的大模型在实际运行时仅需570M参数的计算开销 [7] - 编码器创新性地结合了SAM-base的局部感知能力与CLIP-large的全局理解优势,并采用16倍下采样机制 [7] 性能表现与效率 - 当文本token数量在视觉token的10倍以内时,模型解码精度可达97%;压缩率达到20倍时,OCR准确率仍保持在约60% [3] - 在OmniDocBench基准测试中,仅使用100个视觉token就超过了GOT-OCR2.0(每页256个token)的表现;使用不到800个视觉token就优于MinerU2.0(平均每页超过6000个token) [4] - 单张A100-40G GPU每天可生成超过20万页的LLM/VLM训练数据 [4] - 对于简单PPT文档仅需64个视觉token,处理复杂学术论文时400个token即可完整保留专业符号 [9][10] 应用潜力与行业影响 - 模型展现出广泛应用潜力,在金融领域可将财报瞬间转为结构化数据,在医疗行业能快速数字化历史病历档案,对出版机构而言古籍数字化效率将提升数十倍 [17] - 模型成功识别出阿拉伯语与僧伽罗语等特殊文字,并具备一定程度的通用图像理解能力 [10] - 该方法在长上下文压缩和LLM的记忆遗忘机制等研究方向上具有潜力,为突破大语言模型的上下文长度限制提供了新思路 [3][17]