ParallelComp

搜索文档

8B模型可以超过GPT-4o！并行KV Cache压缩支持的128K长度外推方法ParallelComp

机器之心· 2025-06-25 14:50

大模型长文本推理的瓶颈与突破 - 大语言模型（LLMs）在训练阶段能高效处理4K-8K tokens级别的上下文，但在推理阶段遇到128K以上长度的长文本时，受到显存瓶颈和注意力下沉（attention sink）等问题限制 [2] - 主流LLM依赖旋转位置编码（RoPE）等机制，但超长文本外推时容易出现信息遗失，限制实际应用拓展 [2] - 业界处理长文本的高效推理主要面临两个瓶颈：位置编码的长度外推和内存瓶颈 [3] 现有解决方案与局限性 - 位置编码方案包括基于频率区分的NTK插值方法和分块（chunking）方法，但超长上下文(>128K)外推时优劣未知 [4] - 显存瓶颈普遍采用KV cache压缩方案，但自回归场景下注意力易集中在文本首尾（注意力下沉现象），并行注意力机制下的多峰"sink"现象缺乏系统解决 [5][7] ParallelComp创新方案 - 提出训练免调（Training-Free）长文本处理方案ParallelComp，包含并行Attention分块、KV缓存智能淘汰与注意力偏差校准三大技术 [8] - 并行分块注意力将输入长文本按最大处理长度切分为若干块，通过块位置编码重用机制实现128K级别序列长度外推 [12][13] - 双重淘汰机制（分块淘汰和KV缓存淘汰）将全流程推理显存压缩到64G，显著提升Batch inference和多GPU设置下的效率 [14][15] - 注意力偏差校准技术针对并行分块机制下的多峰、区域性异常，分层驱逐极端关注token使Attention分布趋于平滑 [18][19] 实验性能与行业影响 - 在A100-80GB单卡环境中实现8K至128K无缝外推，prefilling阶段加速高达23.5倍 [30] - 仅8B参数、8K上下文训练的小模型在超长文本任务中整体性能达GPT-4o的91.17%，特定任务超过GPT-4o、Claude-2和Kimi-Chat [30] - 该方法无需新训练，通过智能分块和淘汰机制提升处理长度和效率，适用于法律文档、医学文献等复杂产业应用 [32]

大语言模型长文本推理

位置编码长度外推

长度外推内存瓶颈

Artificial Intelligence

Artificial Intelligence

ParallelComp

GPT-4o