10倍压缩率、97%解码精度!DeepSeek开源新模型 为何赢得海内外关注
Seek .Seek .(US:SKLTY) 新浪财经·2025-10-22 07:26

模型发布与核心创新 - DeepSeek于10月20日开源最新大模型DeepSeek-OCR,这是一种通过光学2D映射压缩长上下文的视觉-文本压缩范式[1] - 模型核心创新在于用少量视觉token表示大量文本内容,旨在降低大模型计算开销,例如将1000字文章压缩成100个视觉tokens[1][7][8] - 该项目由DeepSeek三位研究员Haoran Wei、Yaofeng Sun、Yukun Li共同完成,其中一作作者Haoran Wei曾主导开发GOT-OCR2.0系统[1] 技术架构与性能 - DeepSeek-OCR架构分为两部分:专为高压缩、高分辨率文档处理的DeepEncoder视觉编码器和轻量级混合专家语言解码器DeepSeek3B-MoE[3] - DeepEncoder融合SAM和CLIP两种成熟视觉模型架构,前者擅长局部细节处理,后者能捕获整体知识信息[4] - 实验表明,当压缩比<10×时模型可达97% OCR精度,即使在20×压缩比下精度仍保持约60%,在十倍压缩下识别准确率达96.5%[6][8] 行业影响与专家评价 - 模型发布后获海外科技媒体广泛赞美,被评价为"AI的JPEG时刻",前特斯拉AI总监Andrej Karpathy高度评价该论文[3] - 知名科技媒体《麻省理工科技评论》指出模型具备较强"深度解析"能力,能处理图表、化学分子式等复杂元素,拓展了在金融、科研等专业领域的应用空间[6] - 特斯拉创始人Elon Musk评论认为从长远看,AI模型超过99%的输入和输出都将是光子,没有其他东西可以规模化[4] 应用潜力与生产效率 - 模型初步验证上下文光学压缩可行性,可从少量视觉tokens有效解码超过10倍数量文本tokens,具备大规模生产预训练数据能力[7] - 单张A100-40G GPU每天可生成超过20万页训练数据,为大型语言模型和视觉-语言模型开发提供支持[7] - 模型不仅能识别标准文本,还能将图表转换为表格数据、分子式输出为SMILES格式,展示出在历史长上下文压缩和LLM记忆遗忘机制研究领域的应用前景[6][7]