Transfer Operator
搜索文档
注意力机制大变革?Bengio团队找到了一种超越Transformer的硬件对齐方案
机器之心· 2026-01-07 13:16
文章核心观点 - 一篇学术研究提出了一种名为“滑动窗口循环”的新方法,通过硬件对齐的矩阵运算来优化线性递归模型,旨在解决大语言模型在处理长序列时面临的“内存墙”和计算效率问题,并在实验中展现出显著的训练速度与模型质量提升 [1][31][32] 研究背景与挑战 - Transformer模型虽占主导,但线性递归或状态空间模型等竞争者旨在提升计算性能和效率 [1] - 现有线性递归方法在GPU上的实际表现受限于内存带宽和全局同步带来的高昂通信成本,未能充分发挥硬件潜力 [1][4][6] - 数据移动导致的瓶颈是长文本大模型训练和推理中亟待解决的“内存墙”问题 [7] 核心解决方案:滑动窗口循环与B2P算法 - 研究核心是提出了“滑动窗口循环”(SWR),通过策略性截断计算视界来换取高吞吐量,其锯齿状窗口结构能自然对齐硬件工作负载 [11] - 开发了“块两步”(B2P)算法及对应的CUDA内核,将计算分为两个阶段:线程束并行处理本地块,再利用共享内存在相邻块间传递状态并进行低秩补偿 [14][15] - 该设计确保输入数据只需从显存读取一次,中间通信发生在芯片内部,实现了接近恒定的O(1)算法深度和极佳的硬件利用率 [15] Phalanx层设计与性能 - 基于B2P算法设计了名为Phalanx的新型计算层,可作为滑动窗口注意力或线性递归层的替代品 [20] - Phalanx层参数化极简,通过Sigmoid函数保证递归系数在稳定区间内,并采用基于头的参数共享模式,与Tensor Core的计算模型契合 [20][22] - 在1.3B参数模型的测试中,Phalanx+Attention混合模型在4K到32K上下文长度间,实现了10%到40%的端到端训练提速 [23][24] - 在模型精度上,Phalanx在1:1混合比下达到10.85的困惑度,优于Transformer++基准的10.95 [25][26] - 在8K上下文训练中,Phalanx混合模型比传统的SWA/Attention混合架构快28%,在短序列下也比纯注意力模型提升10%的训练吞吐量 [28] 行业意义 - 该研究为下一代长文本模型架构指明方向:真正的效率提升源于对底层计算硬件物理特性的深刻理解与对齐,而不仅仅是算法复杂度降低 [31] - 随着LLM向超大规模上下文演进,这种硬件感知的算子设计将成为构建更强大AI系统的核心基石 [33]