核心观点 - 琶洲实验室与华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),在128K超长序列任务中推理速度达标准自注意力机制的7.9倍,键值缓存显存占用减少93% [1][3] - CCA-Attention通过全局池化注意力与局部保留注意力的协同设计,在降低计算量的同时保持长距离依赖建模能力,且无需修改模型结构或引入额外参数 [7][9] - 该方法在LLaMA2-7B模型上的实验显示,64K上下文长度下推理速度提升5.7倍,128K任务中KV Cache显存减少93% [26] 技术原理 - 全局感知池化模块:将输入序列分组后提取核心token,将注意力计算维度从n降至m,实现线性计算复杂度 [12][14] - 局部保留模块:确保每个token关注前w个原始token,捕捉细粒度局部上下文,与全局模块互补 [15] - 可微融合策略:组合全局与局部模块的键值矩阵,形成统一注意力输出,保持完整可达性 [16][17] 性能优势 - 在LLaMA2-7B-80K模型上,LongBench-E基准测试平均得分22.24,优于StreamingLLM(14.94)和LM-Infinite(21.20) [22] - 多文档问答任务中,128K上下文长度下EM得分32.0,超越标准自注意力(30.3),推理延迟仅15.89秒(标准方法124.85秒) [24] - 基于Triton的底层加速实现端到端优化,预填充与解码阶段效率同步提升 [18] 行业对比 - 相比DeepSeek NSA需引入压缩模块和重新训练,CCA-Attention可直接替换现有注意力模块 [9] - 对比Kimi MoBA的块丢弃机制,CCA-Attention通过动态聚合关键上下文保留全局建模能力 [9] - 计算效率显著优于MInference等现有方法,128K任务显存占用仅为标准自注意力的7% [26] 应用前景 - 适用于LLaMA2等主流大模型,仅需少量微调即可集成,具备即插即用特性 [13] - 在代码生成、长文档问答等需超长上下文场景中表现突出,128K序列处理速度提升近8倍 [23][26] - 研究成果已被ICML 2025接收,代码与论文已开源 [8]
ICML 2025 | 全局池化+局部保留,CCA-Attention为LLM长文本建模带来突破性进展
机器之心·2025-06-08 16:21