Visual Compression of Long - Text Context
搜索文档
DeepSeek团队发布新型视觉压缩模型DeepSeek-OCR
智通财经网· 2025-10-20 19:37
技术突破 - 推出DeepSeek-OCR,提出通过视觉模态压缩长文本上下文的创新方法,将长上下文渲染成图片,使原本需要数千上万个文本token的内容仅需几百个视觉token即可表示,实现信息高效压缩[1] - 该技术由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成,DeepEncoder专为在高分辨率输入下保持低计算激活并实现高压缩比而设计,以控制视觉token数量[1] - 当文本token数量不超过视觉token的10倍(压缩比低于10倍)时,模型OCR精度达97%,即使压缩比提高至20倍,准确率仍保持约60%[1] 性能表现 - 在OmniDocBench测试中,DeepSeek-OCR使用100个视觉token即超越阶跃星晨GOT-OCR2.0(每页256个token),使用不到800个视觉token便优于上海AI实验室MinerU2.0(平均每页超6000个token)[2] - 实际生产中,该技术可在单块A100-40G显卡上每天生成超20万页大语言模型/视觉语言模型训练数据[2] 应用潜力 - 该技术展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力,同时具备较高实际应用价值[1]