用视觉压缩文本,清华、智谱推出Glyph框架:通过视觉-文本压缩扩展上下文窗口
36氪·2025-10-22 07:10
长上下文(Long Context)建模,已成为大模型行业的前沿研究趋势,是使得大语言模型(LLM)具备真实生产力的关键。 理论上,长上下文 LLM不仅能够实现更全面的语义理解,还能显著增强多步推理与长期记忆能力,从而像人类一样做到"通读全篇、整体思考"。 然而,当将上下文窗口扩展到百万 token 级时,计算与内存成本也会大幅上升,使得长上下文 LLM 的实际应用受限。 为应对这一挑战,来自清华大学和智谱(Z.ai)的研究团队摒弃了基于 token 的序列扩展范式,转而基于「视觉上下文扩展」全新视角提出了 Glyph 框 架,即将长文本渲染成图像,并通过视觉语言模型(VLM)进行处理。 论文:https://arxiv.org/pdf/2510.17800 GitHub:https://github.com/thu-coai/Glyph 实验结果表明,通过持续预训练、由 LLM 驱动的遗传式渲染搜索,以及有针对性的后训练优化,Glyph 在保持与前沿 LLM 相当精度的同时,实现了 3-4 倍的 token 压缩,大幅提高了内存效率、训练和推理速度。 以经典长篇小说《简·爱》(约 240k 个文本 toke ...