Workflow
VIST
icon
搜索文档
与DeepSeek-OCR不谋而合,NeurIPS论文提出让LLM像人一样读长文本
机器之心· 2025-11-10 12:40
研究背景与核心问题 - 大语言模型在处理成千上万甚至几十万长度的长文本上下文时面临挑战,同时模型参数量已飙升至万亿级别,使得Token压缩成为必需品而非优化项[4] - 若不能有效缩减输入规模,即便最强大的大语言模型也难以高效处理海量信息[4] VIST框架核心思想 - 提出模仿人类“快-慢阅读通路”的视觉化压缩机制,让大模型具备“选择性阅读”能力,快速扫读并深入思考[7] - 快路径将远处次要上下文渲染为图像,由冻结的轻量级视觉编码器快速提取显著性语义[7][18] - 慢路径将关键的近处文本直接输入LLM,用于深层推理与语言生成[7][15] - 这种“视觉+语言”的双通道协作模拟了人类眼睛与大脑的协作方式[8] 概率感知视觉增强机制 - 引入概率感知视觉增强机制,教模型“略读”,抓住关键信息,忽略冗余词[22] - 采用基于频率的屏蔽策略,掩码高频低信息量词,重点保留低频高信息量词如名词、动词、数字等核心内容[23] - 经过语义优化的文本嵌入有效指导Resampler从文本图像中提取最重要语义信息[23] 性能与效率提升 - 在处理相同文本内容时,所需视觉Token数量仅为传统文本分词所需Token数量的56%(从1024个文本Token压缩到448个视觉Token),内存减少50%[10][25] - 在开放域问答任务及11个ICL基准任务上显著优于基于文本编码器的压缩方法CEPE[25] - 在极端条件下(所有篇章仅通过视觉编码器处理)仍能在开放域问答任务中达到与TinyLlama相当的性能[25] 视觉文本分词优势 - 视觉编码器充当视觉文本分词器,简化分词流程,无需近十步人工预处理,处理更直接高效[28] - 突破词表瓶颈,无需词表即可统一处理多种语言文本,降低计算与显存开销[29] - 对字符级噪声更鲁棒,关注整体视觉模式,对拼写错误或文本攻击具备天然抵抗力[30] - 多语言处理高效:与传统文本分词相比,可减少62%的日文Token、78%的韩文Token、27%的中文Token[31] 行业影响与未来潜力 - 展示了“视觉+语言”协作在大模型长文本理解中的巨大潜力,视觉驱动的Token压缩可能成为长上下文LLM的标准组件[32] - “先看再读”的策略有助于大模型在保证理解能力的同时大幅降低计算成本,为多模态智能理解铺平道路[33]