Workflow
刚刚,DeepSeek重要突破,大模型上下文紧箍咒打破
Seek .Seek .(US:SKLTY) 36氪·2025-10-21 07:22

核心技术路径 - 首次提出“上下文光学压缩”概念,通过将文本转换为图像实现信息高效压缩[1] - 在10倍压缩比下解码精度达97%,20倍压缩比下精度仍保持约60%[3] - 将文本token转化为视觉token后能用更少token表达相近内容,为降低长文本处理算力开销提供新思路[6] 模型性能表现 - 在OmniDocBench上仅使用100个视觉token即超越GOT-OCR2.0(每页256个token)[6] - 使用少于800个视觉tokens情况下性能超过MinerU2.0(平均每页近7000个token)[6] - 生产环境中每天在单个A100-40G GPU上可生成20万页以上训练数据[8] 模型架构设计 - DeepEncoder视觉编码器采用SAM+CLIP双结构设计,支持从Tiny(64 token)到Gundam(795 token)多种分辨率模式[14] - 输入1024×1024文档图片时能将传统模型的4096个token压缩至256个[14] - DeepSeek3B-MoE解码器推理时仅激活6个专家模块,总激活参数量约5.7亿[18] 应用场景能力 - 具备深度解析能力,可识别图表、几何图形、化学结构式及自然图像等[24] - 在金融报告中能自动提取图表结构化信息[24] - 支持处理近百种语言,包括阿拉伯语与僧伽罗语等小语种[34][36] - 保留通用视觉理解能力,包括图像描述、物体检测和目标定位等任务[36] 数据训练体系 - 训练数据包含OCR 1.0数据(3000万页多语言文档)、OCR 2.0数据(图表公式解析)、通用视觉数据和纯文本数据四大类型[19][25] - 训练流程分为DeepEncoder独立训练和完整模型训练两个阶段[20] - 通过600万条采样数据微调获得Gundam-master超高分辨率模式[20] 行业影响意义 - 验证了视觉模态在文本压缩中的有效性,为大模型处理超长上下文提供新路径[39] - 展示通过优化信息表达方式提高模型效率的可能路径[39] - 为VLM视觉token优化、上下文压缩机制等研究方向提供有价值参考[39]