AI 又进化了,DeepSeek 再推 “ 王炸 ” 新功能
Seek .Seek .(US:SKLTY) 36氪·2025-10-24 19:48

核心技术原理 - 提出光学压缩概念,用视觉模态作为文本压缩介质,以“视觉token”取代“文本token”[2] - 核心思路是将文本转换为图像,再让模型通过看图方式读取信息,以解决大语言模型处理长文本时算力消耗过大的痛点[4] - 模型由DeepEncoder和DeepSeek3B-MoE两部分组成,前者作为压缩引擎,整合了SAM-base和CLIP-large,并包含一个16倍卷积压缩模块用于削减token[8] 性能与效率 - 实现10倍压缩率时,仅用100个视觉token即可表达原本需要1000个文本token的内容,并保留97%的OCR准确率;20倍压缩率下仍可保留约60%的准确率[5] - 一张1024×1024的图片经处理后可从4096块压缩至几百个token,在保留清晰度的同时显著降低显存消耗[9] - 解码器采用MoE架构,64个专家中每次仅激活6个,实际算力仅动用约5.7亿参数,但性能可媲美30亿参数模型[11] 模型能力与训练数据 - 支持多档分辨率模式,包括Tiny、Small、Base、Large以及动态模式Gundam[10] - 训练数据规模庞大,包含3000万页PDF文档,涵盖100种语言,其中中英文文档达2500万页[11] - 额外使用300万条Word文档训练公式识别、表格提取等能力,并从中英文开源数据集各抓取1000万张场景图进行标注[14] 应用效果与测试表现 - 在OmniDocBench测试中,以100个视觉token超越GOT-OCR2.0,用不到800个视觉token超越MinerU2.0,实现性能更强、输入更短、推理更快[14] - 技术可扩展至模拟人类记忆机制,通过将历史对话内容渲染成图像并逐步压缩,实现类似“选择性遗忘”的效果[16][17] - 该范式重新定义了上下文概念,强调记忆的精而非多,为处理超长对话提供了新思路[18] 行业影响与创新意义 - DeepSeek-OCR探索了一种新范式,即用视觉模态高效承载语言信息,在行业追求“更大、更长、更贵”的背景下,提供了“更小、更快、更巧”的发展思路[19][21] - 该模型虽为30亿参数的小模型,但在长文本压缩方面提出了创新思路,并触及了AI记忆与遗忘的边界[22] - 此举标志着行业焦点可能从“记忆更多”转向“更聪明地遗忘”,公司在技术路径创新上处于领先地位[23]