Workflow
DeepEncoder
icon
搜索文档
DeepSeek的终极野心:把大语言模型的基本语言都改造成图像
36氪· 2025-10-21 20:52
核心观点 - DeepSeek开源了名为DeepSeek-OCR的模型,该模型在权威基准上取得了业界顶尖的成绩 [1] - 该研究的核心是解决大语言模型面临的长上下文处理算力瓶颈,通过将文本信息渲染成图像进行高效压缩,从而减少所需的视觉token数量 [4] - 这一方法可能改变未来大语言模型的输入范式,实现用图像作为更高效的输入媒介 [6][37] 技术原理与创新 - 当前大语言模型对更长上下文的追求受限于Transformer注意力机制的计算复杂度,其随序列长度呈二次方增长 [7] - DeepSeek-OCR提出通过光学压缩来减少token数量本身,而非优化注意力计算 [7] - 视觉token是视觉模型处理图像的基本信息单元,一张1024*1024的图像可被划分为4096个视觉token [8] - 大小为其一半的图像能容纳约10000个文本token,表明视觉模态是文本信息的高效压缩媒介 [9] - DeepSeek-OCR实现了10倍压缩几乎无损,20倍压缩基本可用的效果 [10] - 团队设计了名为DeepEncoder的创新视觉编码器,这是一个约3.8亿参数的串联三级架构,完美解决了高分辨率处理和低计算成本之间的矛盾 [11][12][14][16] 性能表现与效率 - 在10倍压缩率下(用64个视觉token解码600-700个文本token),OCR精度高达96.5% [17] - 在20倍压缩率下(用64个token解码1200+token),模型精度保持在约60%的可用水平 [17] - 在OmniDocBench基准测试中,DeepSeek-OCR(Small模式)仅用100个视觉token,性能就超过了使用256个token的GOT-OCR2.0 [19] - DeepSeek-OCR(Gundam模式)使用不到800个视觉token,性能全面超越了需要近7000个token的MinerU2.0 [19] - 单颗英伟达A100 GPU即可每日处理超过20万页文档 [20] - 配备20台服务器(每台搭载8颗A100 GPU)时,系统日处理能力可提升至约3300万页 [20] - 模型支持约100种语言,能识别处理纯文本、图表、化学式与几何图形等多种文档类型 [20] 行业影响与未来愿景 - 该方法不需要额外的基础设施成本,因为在现有的多模态系统上即可实现 [22] - 该方法模拟人类的遗忘机制,通过多分辨率设计实现分层记忆管理,为理论上无限上下文提供了可能路径 [25][27][28][29][31][32] - 当前压缩是无选择性的均匀压缩,未来的方向是让压缩变得有选择性,更符合人类记忆机制 [33][34][35] - 该方法可能实现输入上的统一,因为图像模态更合乎人类认知,所有给LLM的输入都可能被先渲染成图像 [37] - 这被视为一条模拟人类认知和遗忘、通向AGI记忆和输入系统的新路径 [38]
重磅,DeepSeek再开源:视觉即压缩,100个token干翻7000个
36氪· 2025-10-21 09:35
模型核心创新 - 提出“上下文光学压缩”新范式,通过少量视觉token解码出超过其数量10倍的文本信息,实现高比例信息压缩 [1] - 采用端到端视觉语言模型架构,在OCR任务上建立视觉与文本表征间的压缩-解压缩映射关系 [2] - 该技术为解决大语言模型的长上下文问题提供了高效方案,在不同历史上下文阶段可减少7–20倍token使用量 [16] 模型架构设计 - 编码器采用创新的DeepEncoder架构,参数量约3.8亿,由8000万参数的SAM-base和3亿参数的CLIP-large串联构成 [23][24] - 编码器通过2层卷积模块实现16倍下采样,将4096个patch token压缩至256个视觉token [26][27] - 解码器使用DeepSeek-3B-MoE,推理时激活6个路由专家和2个共享专家,总计激活约5.7亿参数 [34][36] - 支持多种分辨率输入模式,包括Tiny(512)、Small(640)、Base(1024)、Large(1280)及动态分辨率组合 [29][33] 性能表现与基准测试 - 在Fox基准测试中,使用64个视觉token可实现10.5倍压缩比且精度达96.5%,使用100个视觉token可实现6.7倍压缩比且精度达98.5% [37] - 在OmniDocBench基准上,仅用100个视觉token即超越GOT-OCR2.0,用不到800个视觉token表现优于需要6000+token的MinerU2.0 [2][44] - 对于书籍和报告类文档,仅需100个视觉token即可达到良好性能,因这类文档文本token数量通常在1000以内 [42] - 模型还具备解析图表、化学方程式、几何图形和自然图像的能力,支持近100种语言处理 [43][46] 实际应用价值 - 单张A100-40G显卡可支持每日20万页以上的大语言模型训练数据生成 [4] - 在实际部署中,使用20个计算节点每日可为LLM/VLM生成3300万页训练数据 [39] - 该技术可直接利用现有VLM基础设施,不带来额外计算开销,具备天然支持条件 [39] - 模型在GitHub上已开源,获得400星和8个分支,采用MIT许可证 [18]
DeepSeek团队发布新型视觉压缩模型DeepSeek-OCR
智通财经网· 2025-10-20 19:37
技术突破 - 推出DeepSeek-OCR,提出通过视觉模态压缩长文本上下文的创新方法,将长上下文渲染成图片,使原本需要数千上万个文本token的内容仅需几百个视觉token即可表示,实现信息高效压缩[1] - 该技术由核心编码器DeepEncoder和解码器DeepSeek3B-MoE-A570M组成,DeepEncoder专为在高分辨率输入下保持低计算激活并实现高压缩比而设计,以控制视觉token数量[1] - 当文本token数量不超过视觉token的10倍(压缩比低于10倍)时,模型OCR精度达97%,即使压缩比提高至20倍,准确率仍保持约60%[1] 性能表现 - 在OmniDocBench测试中,DeepSeek-OCR使用100个视觉token即超越阶跃星晨GOT-OCR2.0(每页256个token),使用不到800个视觉token便优于上海AI实验室MinerU2.0(平均每页超6000个token)[2] - 实际生产中,该技术可在单块A100-40G显卡上每天生成超20万页大语言模型/视觉语言模型训练数据[2] 应用潜力 - 该技术展现出在历史文档长上下文压缩和大语言模型记忆机制研究中的巨大潜力,同时具备较高实际应用价值[1]