Workflow
视觉 - 文本压缩
icon
搜索文档
用视觉压缩文本,清华、智谱推出Glyph框架:通过视觉-文本压缩扩展上下文窗口
36氪· 2025-10-22 07:10
核心技术突破 - 提出名为Glyph的创新框架,通过将长文本渲染为图像,利用视觉语言模型进行处理,实现文本压缩[1] - 该方法摒弃了基于token的序列扩展范式,转向基于视觉上下文扩展的新视角[1] - 在保持与前沿大语言模型相当精度的同时,实现了3-4倍的token压缩,大幅提高内存效率和训练推理速度[3] 技术实现路径 - 框架包含持续预训练、LLM驱动渲染搜索和后训练优化三个主要阶段[8] - 持续预训练阶段将大规模长文本数据渲染为多种视觉风格,构建OCR识别等任务使模型学习视觉形态与语义含义[8] - 采用LLM驱动的遗传搜索算法自动评估不同渲染方案性能,通过多轮迭代收敛到最优渲染策略[9] - 后训练阶段进行监督微调与强化学习优化,并引入OCR辅助任务强化文字识别能力[10] 性能表现 - 在LongBench基准测试中,Glyph平均性能达50.56%,与Qwen3-8B(47.46%)、GLM-4-9B-Chat-1M(49.27%)等主流模型精度相当[14] - 在MRCR基准测试的4-needle任务中平均性能达25.81%,在8-needle任务中达18.14%,多数设置下位于前两名[15] - 相比文本基准模型,推理速度提升4倍,训练速度提升2倍,且优势随上下文长度增加而增强[16] - 在极端压缩场景下(8倍压缩比),有潜力利用128k上下文长度处理百万级上下文任务[17] 应用潜力与行业影响 - 以经典长篇小说《简·爱》(约240k文本token)为例,Glyph将其内容呈现为紧凑图像(约80k视觉token),使128k上下文的VLM能够正确回答需要通篇考虑的问题[3] - 在MMLongBench-Doc文档理解任务上,Glyph总体准确率达45.57%,显著优于原始视觉语言基线GLM-4.1V-9B-Base(29.18%)[20] - 提高token信息密度为长上下文建模提供了新范式,未来大语言模型输入token或将从百万级扩展到千万级[5]
DeepSeek开源新模型,用视觉方式压缩一切
观察者网· 2025-10-20 18:47
模型发布与技术概览 - DeepSeek于10月20日再度开源新模型DeepSeek-OCR,这是一款光学字符识别模型,参数量为3B [1] - 该项目由三位研究员共同完成,其中一作Haoran Wei曾主导开发在GitHub上收获超7800 star的GOT-OCR2.0系统 [1] - 模型通过光学二维映射将文本内容压缩到视觉像素中来实现高效压缩长文本上下文 [3] 核心技术架构 - 模型由DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器两大核心组件构成 [3] - DeepEncoder能保持高分辨率输入下的低激活状态,并实现高压缩比以生成数量适中的视觉token [3] - 解码器采用混合专家机制,使3B参数的大模型在实际运行时仅需570M参数的计算开销 [7] - 编码器创新性地结合了SAM-base的局部感知能力与CLIP-large的全局理解优势,并采用16倍下采样机制 [7] 性能表现与效率 - 当文本token数量在视觉token的10倍以内时,模型解码精度可达97%;压缩率达到20倍时,OCR准确率仍保持在约60% [3] - 在OmniDocBench基准测试中,仅使用100个视觉token就超过了GOT-OCR2.0(每页256个token)的表现;使用不到800个视觉token就优于MinerU2.0(平均每页超过6000个token) [4] - 单张A100-40G GPU每天可生成超过20万页的LLM/VLM训练数据 [4] - 对于简单PPT文档仅需64个视觉token,处理复杂学术论文时400个token即可完整保留专业符号 [9][10] 应用潜力与行业影响 - 模型展现出广泛应用潜力,在金融领域可将财报瞬间转为结构化数据,在医疗行业能快速数字化历史病历档案,对出版机构而言古籍数字化效率将提升数十倍 [17] - 模型成功识别出阿拉伯语与僧伽罗语等特殊文字,并具备一定程度的通用图像理解能力 [10] - 该方法在长上下文压缩和LLM的记忆遗忘机制等研究方向上具有潜力,为突破大语言模型的上下文长度限制提供了新思路 [3][17]
太强了!DeepSeek刚刚开源新模型,用视觉方式压缩一切
机器之心· 2025-10-20 17:15
模型发布与核心创新 - DeepSeek开源了名为DeepSeek-OCR的新模型,参数量为3B,上线不久下载量已超过100次[1] - 该模型是光学字符识别模型,旨在通过文本到图像的方法实现近10倍无损上下文压缩[1][3] - 核心创新在于利用视觉模态作为文本信息的高效压缩媒介,通过视觉Token进行光学压缩可实现高压缩率[9] 技术架构与设计 - 模型主要由DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器两大核心组件构成[3][11] - DeepEncoder参数量约为380M,由80M的SAM-base和300M的CLIP-large串联而成,能保持高分辨率输入下的低激活状态[14][15] - 解码器采用3B MoE架构,推理时激活64个路由专家中的6个及2个共享专家,激活参数量约为570M[18] - 编码器将1024×1024图像分割为4096个patch Token,经压缩模块后变为256个Token,实现内存可控[17] 性能表现与压缩效率 - 当压缩率<10×时,模型解码精度可达97%;压缩率达到20×情况下,OCR准确率仍保持在约60%[3][28] - 在OmniDocBench基准测试中,仅使用100个视觉Token就超过了GOT-OCR2.0的表现[5] - 使用不到800个视觉Token时性能优于MinerU2.0,而后者需要近7000个视觉Token[5][32] - 实际生产中,单张A100-40G GPU每天可生成超过20万页LLM/VLM训练数据[5] 应用能力与多模态支持 - 模型支持近100种语言的识别,具备多语言OCR能力[42] - 在深度解析模式下能处理图表、几何图形、化学公式等多种复杂内容[34][40] - 保留通用视觉理解能力,包括图像描述、物体检测等功能[46][48] - 针对不同类型文档需求差异:幻灯片类仅需64个视觉Token,书籍报告类需100个视觉Token即可满足需求[33] 训练方法与数据 - 训练流程分为两个阶段:独立训练DeepEncoder和训练完整DeepSeek-OCR模型[21][23] - 使用20个节点进行训练,纯文本数据训练速度为每天900亿Token,多模态数据为每天700亿Token[25] - 构建了复杂多样的训练数据,包括OCR 1.0数据、OCR 2.0数据以及通用视觉数据[20][23]