长文本建模

搜索文档
ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
机器之心· 2025-06-13 23:45
长文本建模的挑战与GCA的创新 - 长文本建模面临两大核心挑战:主流LLMs的Transformers架构存在平方复杂度及显存开销线性增长问题,以及full-attention外推能力有限难以泛化到超长输入[1] - 高效处理长上下文不仅关乎工业界降本增效,更涉及AGI核心问题——构建具有永久记忆的智能体,这将成为大语言模型公司的数据护城河[1] - 蚂蚁团队提出GCA机制,模拟人类开卷考试模式,通过因果检索注意力实现端到端学习,仅关注相关历史片段,显著降低显存开销[2] GCA技术原理与架构 - GCA采用两阶段注意力机制:分组注意力收集各chunk信息,chunk-level融合通过softmax加权整合关键信息用于预测[14][15] - 架构结合GCA与滑动窗口注意力,前者负责长程检索后者处理短程信息,通过Triton kernel实现优化显存管理[15] - 与传统检索方式相比,GCA让检索分参与前向运算获得梯度,实现检索模块的端到端学习[13] 实验性能表现 - 128M模型实现1000倍长度泛化,16K预训练模型在16M上下文passkey retrieval达到100%准确率[5][17] - 训练开销随序列长度呈线性增长,推理显存接近常数且速度持平Transformers,CPU卸载策略使48K上下文显存仅增加1.62倍[17][20] - 在arXiv-math数据中展示语义级检索能力,能识别引理和变量声明的逻辑相关性[21] 行业技术对比 - 相比滑动窗口注意力牺牲长程信息、温度调节法泛化有限等现有方案,GCA突破性地实现有效利用超长上文信息[7][8] - 与DeepSeek的NSA形成技术互补:GCA侧重长度泛化,NSA优化稀疏attention,后续HSA工作融合两者优势[5] 开源与学术影响 - 技术实现已通过Triton kernel全部开源,论文被ICML 2025接收[3][11] - 尽管实验规模较小,但为机器永久记忆机制提供新思路,首次实现16M长度完美信息检索[23]
ICML 2025 | 全局池化+局部保留,CCA-Attention为LLM长文本建模带来突破性进展
机器之心· 2025-06-08 16:21
核心观点 - 琶洲实验室与华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),在128K超长序列任务中推理速度达标准自注意力机制的7.9倍,键值缓存显存占用减少93% [1][3] - CCA-Attention通过全局池化注意力与局部保留注意力的协同设计,在降低计算量的同时保持长距离依赖建模能力,且无需修改模型结构或引入额外参数 [7][9] - 该方法在LLaMA2-7B模型上的实验显示,64K上下文长度下推理速度提升5.7倍,128K任务中KV Cache显存减少93% [26] 技术原理 - **全局感知池化模块**:将输入序列分组后提取核心token,将注意力计算维度从n降至m,实现线性计算复杂度 [12][14] - **局部保留模块**:确保每个token关注前w个原始token,捕捉细粒度局部上下文,与全局模块互补 [15] - **可微融合策略**:组合全局与局部模块的键值矩阵,形成统一注意力输出,保持完整可达性 [16][17] 性能优势 - 在LLaMA2-7B-80K模型上,LongBench-E基准测试平均得分22.24,优于StreamingLLM(14.94)和LM-Infinite(21.20) [22] - 多文档问答任务中,128K上下文长度下EM得分32.0,超越标准自注意力(30.3),推理延迟仅15.89秒(标准方法124.85秒) [24] - 基于Triton的底层加速实现端到端优化,预填充与解码阶段效率同步提升 [18] 行业对比 - 相比DeepSeek NSA需引入压缩模块和重新训练,CCA-Attention可直接替换现有注意力模块 [9] - 对比Kimi MoBA的块丢弃机制,CCA-Attention通过动态聚合关键上下文保留全局建模能力 [9] - 计算效率显著优于MInference等现有方法,128K任务显存占用仅为标准自注意力的7% [26] 应用前景 - 适用于LLaMA2等主流大模型,仅需少量微调即可集成,具备即插即用特性 [13] - 在代码生成、长文档问答等需超长上下文场景中表现突出,128K序列处理速度提升近8倍 [23][26] - 研究成果已被ICML 2025接收,代码与论文已开源 [8]