重磅,DeepSeek再开源:视觉即压缩,100个token干翻7000个
Seek .Seek .(US:SKLTY) 36氪·2025-10-21 09:35

模型核心创新 - 提出“上下文光学压缩”新范式,通过少量视觉token解码出超过其数量10倍的文本信息,实现高比例信息压缩 [1] - 采用端到端视觉语言模型架构,在OCR任务上建立视觉与文本表征间的压缩-解压缩映射关系 [2] - 该技术为解决大语言模型的长上下文问题提供了高效方案,在不同历史上下文阶段可减少7–20倍token使用量 [16] 模型架构设计 - 编码器采用创新的DeepEncoder架构,参数量约3.8亿,由8000万参数的SAM-base和3亿参数的CLIP-large串联构成 [23][24] - 编码器通过2层卷积模块实现16倍下采样,将4096个patch token压缩至256个视觉token [26][27] - 解码器使用DeepSeek-3B-MoE,推理时激活6个路由专家和2个共享专家,总计激活约5.7亿参数 [34][36] - 支持多种分辨率输入模式,包括Tiny(512)、Small(640)、Base(1024)、Large(1280)及动态分辨率组合 [29][33] 性能表现与基准测试 - 在Fox基准测试中,使用64个视觉token可实现10.5倍压缩比且精度达96.5%,使用100个视觉token可实现6.7倍压缩比且精度达98.5% [37] - 在OmniDocBench基准上,仅用100个视觉token即超越GOT-OCR2.0,用不到800个视觉token表现优于需要6000+token的MinerU2.0 [2][44] - 对于书籍和报告类文档,仅需100个视觉token即可达到良好性能,因这类文档文本token数量通常在1000以内 [42] - 模型还具备解析图表、化学方程式、几何图形和自然图像的能力,支持近100种语言处理 [43][46] 实际应用价值 - 单张A100-40G显卡可支持每日20万页以上的大语言模型训练数据生成 [4] - 在实际部署中,使用20个计算节点每日可为LLM/VLM生成3300万页训练数据 [39] - 该技术可直接利用现有VLM基础设施,不带来额外计算开销,具备天然支持条件 [39] - 模型在GitHub上已开源,获得400星和8个分支,采用MIT许可证 [18]