GCA（Grouped Cross Attention） - 财报，业绩电话会，研报，新闻

GCA（Grouped Cross Attention）

搜索文档

ICML 2025 | 千倍长度泛化！蚂蚁新注意力机制GCA实现16M长上下文精准理解

机器之心· 2025-06-13 23:45

长文本建模的挑战与GCA的创新 - 长文本建模面临两大核心挑战：主流LLMs的Transformers架构存在平方复杂度及显存开销线性增长问题，以及full-attention外推能力有限难以泛化到超长输入[1] - 高效处理长上下文不仅关乎工业界降本增效，更涉及AGI核心问题——构建具有永久记忆的智能体，这将成为大语言模型公司的数据护城河[1] - 蚂蚁团队提出GCA机制，模拟人类开卷考试模式，通过因果检索注意力实现端到端学习，仅关注相关历史片段，显著降低显存开销[2] GCA技术原理与架构 - GCA采用两阶段注意力机制：分组注意力收集各chunk信息，chunk-level融合通过softmax加权整合关键信息用于预测[14][15] - 架构结合GCA与滑动窗口注意力，前者负责长程检索后者处理短程信息，通过Triton kernel实现优化显存管理[15] - 与传统检索方式相比，GCA让检索分参与前向运算获得梯度，实现检索模块的端到端学习[13] 实验性能表现 - 128M模型实现1000倍长度泛化，16K预训练模型在16M上下文passkey retrieval达到100%准确率[5][17] - 训练开销随序列长度呈线性增长，推理显存接近常数且速度持平Transformers，CPU卸载策略使48K上下文显存仅增加1.62倍[17][20] - 在arXiv-math数据中展示语义级检索能力，能识别引理和变量声明的逻辑相关性[21] 行业技术对比 - 相比滑动窗口注意力牺牲长程信息、温度调节法泛化有限等现有方案，GCA突破性地实现有效利用超长上文信息[7][8] - 与DeepSeek的NSA形成技术互补：GCA侧重长度泛化，NSA优化稀疏attention，后续HSA工作融合两者优势[5] 开源与学术影响 - 技术实现已通过Triton kernel全部开源，论文被ICML 2025接收[3][11] - 尽管实验规模较小，但为机器永久记忆机制提供新思路，首次实现16M长度完美信息检索[23]

Artificial Intelligence

GCA（Grouped Cross Attention）

Artificial Intelligence

GCA（Grouped Cross Attention）