视觉 - 文本压缩
搜索文档
用视觉压缩文本,清华、智谱推出Glyph框架:通过视觉-文本压缩扩展上下文窗口
36氪· 2025-10-22 07:10
长上下文(Long Context)建模,已成为大模型行业的前沿研究趋势,是使得大语言模型(LLM)具备真实生产力的关键。 理论上,长上下文 LLM不仅能够实现更全面的语义理解,还能显著增强多步推理与长期记忆能力,从而像人类一样做到"通读全篇、整体思考"。 然而,当将上下文窗口扩展到百万 token 级时,计算与内存成本也会大幅上升,使得长上下文 LLM 的实际应用受限。 为应对这一挑战,来自清华大学和智谱(Z.ai)的研究团队摒弃了基于 token 的序列扩展范式,转而基于「视觉上下文扩展」全新视角提出了 Glyph 框 架,即将长文本渲染成图像,并通过视觉语言模型(VLM)进行处理。 论文:https://arxiv.org/pdf/2510.17800 GitHub:https://github.com/thu-coai/Glyph 实验结果表明,通过持续预训练、由 LLM 驱动的遗传式渲染搜索,以及有针对性的后训练优化,Glyph 在保持与前沿 LLM 相当精度的同时,实现了 3-4 倍的 token 压缩,大幅提高了内存效率、训练和推理速度。 以经典长篇小说《简·爱》(约 240k 个文本 toke ...
DeepSeek开源新模型,用视觉方式压缩一切
观察者网· 2025-10-20 18:47
(文/陈济深 编辑/张广凯) 10月20日,DeepSeek再度开源新模型。 在GitHub(https://github.com/deepseek-ai/DeepSeek-OCR)上可以看到其最新模型名为DeepSeek-OCR,还是一款OCR(光学字符识别)模型,该模型的参 数量为3B。 该项目由 DeepSeek 三位研究员 Haoran Wei、Yaofeng Sun、Yukun Li 共同完成。其中一作 Haoran Wei 曾在阶跃星辰工作过,曾主导开发了旨在实现「第 二代 OCR」的 GOT-OCR2.0 系统(arXiv:2409.01704),该项目已在 GitHub 收获了超 7800 star。也因此,由其主导 DeepSeek 的 OCR 项目也在情理之 中。 DeepSeek 表示,DeepSeek-OCR 模型是通过光学二维映射(将文本内容压缩到视觉像素中)来高效压缩长文本上下文。 该模型主要由 DeepEncoder 和 DeepSeek3B-MoE-A570M 解码器两大核心组件构成。其中 DeepEncoder 作为核心引擎,既能保持高分辨率输入下的低激活 状态,又能实现高压 ...
太强了!DeepSeek刚刚开源新模型,用视觉方式压缩一切
机器之心· 2025-10-20 17:15
模型发布与核心创新 - DeepSeek开源了名为DeepSeek-OCR的新模型,参数量为3B,上线不久下载量已超过100次[1] - 该模型是光学字符识别模型,旨在通过文本到图像的方法实现近10倍无损上下文压缩[1][3] - 核心创新在于利用视觉模态作为文本信息的高效压缩媒介,通过视觉Token进行光学压缩可实现高压缩率[9] 技术架构与设计 - 模型主要由DeepEncoder编码器和DeepSeek3B-MoE-A570M解码器两大核心组件构成[3][11] - DeepEncoder参数量约为380M,由80M的SAM-base和300M的CLIP-large串联而成,能保持高分辨率输入下的低激活状态[14][15] - 解码器采用3B MoE架构,推理时激活64个路由专家中的6个及2个共享专家,激活参数量约为570M[18] - 编码器将1024×1024图像分割为4096个patch Token,经压缩模块后变为256个Token,实现内存可控[17] 性能表现与压缩效率 - 当压缩率<10×时,模型解码精度可达97%;压缩率达到20×情况下,OCR准确率仍保持在约60%[3][28] - 在OmniDocBench基准测试中,仅使用100个视觉Token就超过了GOT-OCR2.0的表现[5] - 使用不到800个视觉Token时性能优于MinerU2.0,而后者需要近7000个视觉Token[5][32] - 实际生产中,单张A100-40G GPU每天可生成超过20万页LLM/VLM训练数据[5] 应用能力与多模态支持 - 模型支持近100种语言的识别,具备多语言OCR能力[42] - 在深度解析模式下能处理图表、几何图形、化学公式等多种复杂内容[34][40] - 保留通用视觉理解能力,包括图像描述、物体检测等功能[46][48] - 针对不同类型文档需求差异:幻灯片类仅需64个视觉Token,书籍报告类需100个视觉Token即可满足需求[33] 训练方法与数据 - 训练流程分为两个阶段:独立训练DeepEncoder和训练完整DeepSeek-OCR模型[21][23] - 使用20个节点进行训练,纯文本数据训练速度为每天900亿Token,多模态数据为每天700亿Token[25] - 构建了复杂多样的训练数据,包括OCR 1.0数据、OCR 2.0数据以及通用视觉数据[20][23]