Seek .-DeepSeek的终极野心：把大语言模型的基本语言都改造成图像

核心观点 - DeepSeek开源了名为DeepSeek-OCR的模型，该模型在权威基准上取得了业界顶尖的成绩 [1] - 该研究的核心是解决大语言模型面临的长上下文处理算力瓶颈，通过将文本信息渲染成图像进行高效压缩，从而减少所需的视觉token数量 [4] - 这一方法可能改变未来大语言模型的输入范式，实现用图像作为更高效的输入媒介 [6][37] 技术原理与创新 - 当前大语言模型对更长上下文的追求受限于Transformer注意力机制的计算复杂度，其随序列长度呈二次方增长 [7] - DeepSeek-OCR提出通过光学压缩来减少token数量本身，而非优化注意力计算 [7] - 视觉token是视觉模型处理图像的基本信息单元，一张1024*1024的图像可被划分为4096个视觉token [8] - 大小为其一半的图像能容纳约10000个文本token，表明视觉模态是文本信息的高效压缩媒介 [9] - DeepSeek-OCR实现了10倍压缩几乎无损，20倍压缩基本可用的效果 [10] - 团队设计了名为DeepEncoder的创新视觉编码器，这是一个约3.8亿参数的串联三级架构，完美解决了高分辨率处理和低计算成本之间的矛盾 [11][12][14][16] 性能表现与效率 - 在10倍压缩率下（用64个视觉token解码600-700个文本token），OCR精度高达96.5% [17] - 在20倍压缩率下（用64个token解码1200+token），模型精度保持在约60%的可用水平 [17] - 在OmniDocBench基准测试中，DeepSeek-OCR（Small模式）仅用100个视觉token，性能就超过了使用256个token的GOT-OCR2.0 [19] - DeepSeek-OCR（Gundam模式）使用不到800个视觉token，性能全面超越了需要近7000个token的MinerU2.0 [19] - 单颗英伟达A100 GPU即可每日处理超过20万页文档 [20] - 配备20台服务器（每台搭载8颗A100 GPU）时，系统日处理能力可提升至约3300万页 [20] - 模型支持约100种语言，能识别处理纯文本、图表、化学式与几何图形等多种文档类型 [20] 行业影响与未来愿景 - 该方法不需要额外的基础设施成本，因为在现有的多模态系统上即可实现 [22] - 该方法模拟人类的遗忘机制，通过多分辨率设计实现分层记忆管理，为理论上无限上下文提供了可能路径 [25][27][28][29][31][32] - 当前压缩是无选择性的均匀压缩，未来的方向是让压缩变得有选择性，更符合人类记忆机制 [33][34][35] - 该方法可能实现输入上的统一，因为图像模态更合乎人类认知，所有给LLM的输入都可能被先渲染成图像 [37] - 这被视为一条模拟人类认知和遗忘、通向AGI记忆和输入系统的新路径 [38]