核心技术突破 - 提出名为Glyph的创新框架,通过将长文本渲染为图像,利用视觉语言模型进行处理,实现文本压缩[1] - 该方法摒弃了基于token的序列扩展范式,转向基于视觉上下文扩展的新视角[1] - 在保持与前沿大语言模型相当精度的同时,实现了3-4倍的token压缩,大幅提高内存效率和训练推理速度[3] 技术实现路径 - 框架包含持续预训练、LLM驱动渲染搜索和后训练优化三个主要阶段[8] - 持续预训练阶段将大规模长文本数据渲染为多种视觉风格,构建OCR识别等任务使模型学习视觉形态与语义含义[8] - 采用LLM驱动的遗传搜索算法自动评估不同渲染方案性能,通过多轮迭代收敛到最优渲染策略[9] - 后训练阶段进行监督微调与强化学习优化,并引入OCR辅助任务强化文字识别能力[10] 性能表现 - 在LongBench基准测试中,Glyph平均性能达50.56%,与Qwen3-8B(47.46%)、GLM-4-9B-Chat-1M(49.27%)等主流模型精度相当[14] - 在MRCR基准测试的4-needle任务中平均性能达25.81%,在8-needle任务中达18.14%,多数设置下位于前两名[15] - 相比文本基准模型,推理速度提升4倍,训练速度提升2倍,且优势随上下文长度增加而增强[16] - 在极端压缩场景下(8倍压缩比),有潜力利用128k上下文长度处理百万级上下文任务[17] 应用潜力与行业影响 - 以经典长篇小说《简·爱》(约240k文本token)为例,Glyph将其内容呈现为紧凑图像(约80k视觉token),使128k上下文的VLM能够正确回答需要通篇考虑的问题[3] - 在MMLongBench-Doc文档理解任务上,Glyph总体准确率达45.57%,显著优于原始视觉语言基线GLM-4.1V-9B-Base(29.18%)[20] - 提高token信息密度为长上下文建模提供了新范式,未来大语言模型输入token或将从百万级扩展到千万级[5]
用视觉压缩文本,清华、智谱推出Glyph框架:通过视觉-文本压缩扩展上下文窗口
36氪·2025-10-22 07:10