Workflow
视觉Token
icon
搜索文档
智谱运气是差一点点,视觉Token研究又和DeepSeek撞车了
量子位· 2025-10-22 23:27
行业技术动态 - 智谱AI在DeepSeek发布DeepSeek-OCR后不到一天即开源了自家的视觉Token方案Glyph,显示出行业在视觉压缩技术领域的激烈竞争[1][2] - 视觉Token技术正成为AI领域的新趋势,截至10月22日,抱抱脸上最受欢迎的前四个模型全部支持OCR功能[70] 长上下文处理的技术挑战 - 随着大语言模型能力提升,用户和厂商对长上下文的需求日益迫切,但扩充上下文会导致算力消耗呈指数级增长,例如从50K扩展到100K,算力消耗约为原来的四倍[8][9] - 单纯增加Token数量并不能保证模型表现线性提升,输入过长可能导致模型受到噪声干扰和信息过载[12][13][14] - 当前主流解决方案包括扩展位置编码、改造注意力机制和检索增强RAG,但各自存在推理成本高、效率提升有限或响应速度慢等局限性[15][18][21][23] Glyph技术方案的核心创新 - Glyph采用将文本渲染成图像的新范式,利用图像更高的信息密度实现Token压缩,仅需一个视觉Token就能容纳原先需要好几个文本Token的内容[25][26][30] - 该方案使固定上下文的视觉语言模型能够处理超长文本,例如将240K文本Token的《简·爱》压缩至约80K视觉Token,让128K上下文的模型可以处理完整内容[32][34][36] - 训练流程分为持续预训练、LLM驱动的渲染搜索和后训练三个阶段,通过遗传算法优化渲染参数,并在SFT和RL阶段加入辅助OCR对齐任务[37][39][43][44] 技术性能表现 - Glyph在多项长上下文基准测试中实现了3-4倍的Token压缩率,同时保持与主流模型相当的准确度[49] - 该技术带来约4倍的prefill与解码速度提升,以及约2倍的SFT训练加速,显著减轻算力负担[51] - 在极端压缩情况下,128K上下文的视觉语言模型能够应对相当于百万Token级的文本任务[60] 视觉Token的行业影响 - 视觉Token技术大幅提升处理效率,DeepSeek-OCR仅用100个视觉Token就能在原本需要800个文本Token的文档上取得97.3%的准确率[72] - 效率提升显著降低AI应用门槛,单张NVIDIA A100-40G GPU每天可处理超过20万页文档,仅需一百多张卡即可完成一次完整的模型预训练[74][75] - 视觉Token可能从底层重塑大语言模型的信息处理方式,未来像素可能取代文本成为下一代AI的基本信息单元[76][77]