Workflow
ParallelComp
icon
搜索文档
8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
机器之心· 2025-06-25 14:50
大模型长文本推理的瓶颈与突破 - 大语言模型(LLMs)在训练阶段能高效处理4K-8K tokens级别的上下文,但在推理阶段遇到128K以上长度的长文本时,受到显存瓶颈和注意力下沉(attention sink)等问题限制 [2] - 主流LLM依赖旋转位置编码(RoPE)等机制,但超长文本外推时容易出现信息遗失,限制实际应用拓展 [2] - 业界处理长文本的高效推理主要面临两个瓶颈:位置编码的长度外推和内存瓶颈 [3] 现有解决方案与局限性 - 位置编码方案包括基于频率区分的NTK插值方法和分块(chunking)方法,但超长上下文(>128K)外推时优劣未知 [4] - 显存瓶颈普遍采用KV cache压缩方案,但自回归场景下注意力易集中在文本首尾(注意力下沉现象),并行注意力机制下的多峰"sink"现象缺乏系统解决 [5][7] ParallelComp创新方案 - 提出训练免调(Training-Free)长文本处理方案ParallelComp,包含并行Attention分块、KV缓存智能淘汰与注意力偏差校准三大技术 [8] - 并行分块注意力将输入长文本按最大处理长度切分为若干块,通过块位置编码重用机制实现128K级别序列长度外推 [12][13] - 双重淘汰机制(分块淘汰和KV缓存淘汰)将全流程推理显存压缩到64G,显著提升Batch inference和多GPU设置下的效率 [14][15] - 注意力偏差校准技术针对并行分块机制下的多峰、区域性异常,分层驱逐极端关注token使Attention分布趋于平滑 [18][19] 实验性能与行业影响 - 在A100-80GB单卡环境中实现8K至128K无缝外推,prefilling阶段加速高达23.5倍 [30] - 仅8B参数、8K上下文训练的小模型在超长文本任务中整体性能达GPT-4o的91.17%,特定任务超过GPT-4o、Claude-2和Kimi-Chat [30] - 该方法无需新训练,通过智能分块和淘汰机制提升处理长度和效率,适用于法律文档、医学文献等复杂产业应用 [32]