Long Context LLM - 财报，业绩电话会，研报，新闻

Long Context LLM

搜索文档

AI前线· 2025-08-17 13:33

长文本大语言模型的应用与挑战 - 长上下文大语言模型已成为主流，支持千万级token的上下文窗口，显著提升下游任务效果，尤其在Agent类应用中表现突出[5] - 长上下文能力可应用于会议纪要、技术文档、企业知识注入、代码自动纠错、PR生成等场景，能处理完整代码库或极长视频信息[5] - 当前面临两大挑战：1)计算复杂度导致预填充阶段延迟极高，处理100万token输入在A100上需超30分钟 2)KV Cache存储开销大，单个请求可达数十GB显存占用[6] KV缓存优化技术 - 主流优化方法包括MInference(减少预填充延迟)、RetrievalAttention(缓解显存压力)、Prefix Cache复用(跨请求优化)[11] - 优化流程划分为四个阶段：KV Cache生成(采用高效计算策略)、存储前处理(压缩量化)、语义检索(语义级召回)、解码加载优化(稀疏加载)[21][22] - Prefix Caching已广泛应用，通过哈希函数判断缓存命中，最新方法引入语义级匹配机制提高命中率[17][18] 动态稀疏注意力机制 - 注意力机制具有高度动态稀疏性，128K上下文窗口下仅需召回4K KV Cache(稀疏率96.4%)即可恢复95% Attention Recall[39] - 稀疏性呈现局部性特征，包括竖线模式、斜线模式、块状局部模式等空间结构[41][43] - MInference 1.0利用动态稀疏性实现10倍加速，将60张A100的需求降至8张，1M token推理延迟从30分钟降至3分钟[45][46] 多模态场景优化 - 多模态输入下注意力呈现网格状模式，通过排列变换可适配GPU Tensor Core计算特性[54] - 混合输入场景存在三类模态边界，通过局部聚合不同模态可提升计算效率[60] - MMInference采用两级Attention处理模态间和模态内模式，通过置换实现GPU友好计算[62] 性能评估与行业应用 - SCBench基准包含12个子任务，覆盖13种主流长上下文建模方法和四类KV Cache优化策略[27][28] - 在视频理解任务中，优化方法在Llama-3-8B-262K模型上实现8.3倍加速[76] - RetrievalAttention方法使RTX 4090可支持128K token推理，达到每秒5 token的速度[98] - 技术已被应用于vLLM、SGLang等推理框架及Qwen-Turbo-1M等线上场景[104]

Dynamic Sparse Attention

Dynamic Sparse Attention