长文本推理

搜索文档
8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
机器之心· 2025-06-25 14:50
大模型长文本推理的瓶颈与突破 - 大语言模型(LLMs)在训练阶段能高效处理4K-8K tokens级别的上下文,但在推理阶段遇到128K以上长度的长文本时,受到显存瓶颈和注意力下沉(attention sink)等问题限制 [2] - 主流LLM依赖旋转位置编码(RoPE)等机制,但超长文本外推时容易出现信息遗失,限制实际应用拓展 [2] - 业界处理长文本的高效推理主要面临两个瓶颈:位置编码的长度外推和内存瓶颈 [3] 现有解决方案与局限性 - 位置编码方案包括基于频率区分的NTK插值方法和分块(chunking)方法,但超长上下文(>128K)外推时优劣未知 [4] - 显存瓶颈普遍采用KV cache压缩方案,但自回归场景下注意力易集中在文本首尾(注意力下沉现象),并行注意力机制下的多峰"sink"现象缺乏系统解决 [5][7] ParallelComp创新方案 - 提出训练免调(Training-Free)长文本处理方案ParallelComp,包含并行Attention分块、KV缓存智能淘汰与注意力偏差校准三大技术 [8] - 并行分块注意力将输入长文本按最大处理长度切分为若干块,通过块位置编码重用机制实现128K级别序列长度外推 [12][13] - 双重淘汰机制(分块淘汰和KV缓存淘汰)将全流程推理显存压缩到64G,显著提升Batch inference和多GPU设置下的效率 [14][15] - 注意力偏差校准技术针对并行分块机制下的多峰、区域性异常,分层驱逐极端关注token使Attention分布趋于平滑 [18][19] 实验性能与行业影响 - 在A100-80GB单卡环境中实现8K至128K无缝外推,prefilling阶段加速高达23.5倍 [30] - 仅8B参数、8K上下文训练的小模型在超长文本任务中整体性能达GPT-4o的91.17%,特定任务超过GPT-4o、Claude-2和Kimi-Chat [30] - 该方法无需新训练,通过智能分块和淘汰机制提升处理长度和效率,适用于法律文档、医学文献等复杂产业应用 [32]
面壁小钢炮4.0发布:性能比肩 Qwen-3-8B,极限220倍提速
新浪科技· 2025-06-10 17:37
新浪科技讯 6月10日下午消息,近日,面壁智能第四代"面壁小钢炮" MiniCPM4.0 端侧模型(代号"前进 四")发布。据悉,第四代小钢炮拥有 8B 、0.5B两种参数规模,实现了同级最佳的模型性能。可让长 文本、深思考在端侧真正跑起来,实现220倍极限加速。 据悉,MiniCPM 4.0 模型采用的InfLLMv2稀疏注意力架构改变了传统 Transformer 模型的相关性计算方 式,有效摆脱了逐字重复计算的低效,将稀疏度从行业普遍的40%-50%,降至极致的5%,注意力层仅 需1/10的计算量即可完成长文本计算。且对算子底层重写,进一步加速提升,并使得对文本相关性精准 性大大提升。 值得一提的是,DeepSeek 使用的长文本处理架构NSA(Native Sparse Attention)也引用并采用了与 InfLLM相同的分块注意力计算思路,但其对于短文本的推理较慢,InfLLMv2则很好地解决了NSA在短 文本推理上的短板。 在缓存消耗上,MiniCPM 4.0-8B在 128K 长文本场景下相较于Qwen3-8B仅需 1/4 的缓存存储空间。在速 度、性能飙升的同时,又做到了模型极致压缩,让端 ...