Transfer Operator - 财报，业绩电话会，研报，新闻

Transfer Operator

搜索文档

注意力机制大变革？Bengio团队找到了一种超越Transformer的硬件对齐方案

机器之心· 2026-01-07 13:16

文章核心观点 - 一篇学术研究提出了一种名为“滑动窗口循环”的新方法，通过硬件对齐的矩阵运算来优化线性递归模型，旨在解决大语言模型在处理长序列时面临的“内存墙”和计算效率问题，并在实验中展现出显著的训练速度与模型质量提升 [1][31][32] 研究背景与挑战 - Transformer模型虽占主导，但线性递归或状态空间模型等竞争者旨在提升计算性能和效率 [1] - 现有线性递归方法在GPU上的实际表现受限于内存带宽和全局同步带来的高昂通信成本，未能充分发挥硬件潜力 [1][4][6] - 数据移动导致的瓶颈是长文本大模型训练和推理中亟待解决的“内存墙”问题 [7] 核心解决方案：滑动窗口循环与B2P算法 - 研究核心是提出了“滑动窗口循环”（SWR），通过策略性截断计算视界来换取高吞吐量，其锯齿状窗口结构能自然对齐硬件工作负载 [11] - 开发了“块两步”（B2P）算法及对应的CUDA内核，将计算分为两个阶段：线程束并行处理本地块，再利用共享内存在相邻块间传递状态并进行低秩补偿 [14][15] - 该设计确保输入数据只需从显存读取一次，中间通信发生在芯片内部，实现了接近恒定的O(1)算法深度和极佳的硬件利用率 [15] Phalanx层设计与性能 - 基于B2P算法设计了名为Phalanx的新型计算层，可作为滑动窗口注意力或线性递归层的替代品 [20] - Phalanx层参数化极简，通过Sigmoid函数保证递归系数在稳定区间内，并采用基于头的参数共享模式，与Tensor Core的计算模型契合 [20][22] - 在1.3B参数模型的测试中，Phalanx+Attention混合模型在4K到32K上下文长度间，实现了10%到40%的端到端训练提速 [23][24] - 在模型精度上，Phalanx在1:1混合比下达到10.85的困惑度，优于Transformer++基准的10.95 [25][26] - 在8K上下文训练中，Phalanx混合模型比传统的SWA/Attention混合架构快28%，在短序列下也比纯注意力模型提升10%的训练吞吐量 [28] 行业意义 - 该研究为下一代长文本模型架构指明方向：真正的效率提升源于对底层计算硬件物理特性的深刻理解与对齐，而不仅仅是算法复杂度降低 [31] - 随着LLM向超大规模上下文演进，这种硬件感知的算子设计将成为构建更强大AI系统的核心基石 [33]

Linear Recurrences

State Space Model

Sliding Window Recurrences

B2P Algorithm

Transfer Operator

Artificial Intelligence

Linear Recurrences

State Space Model

Sliding Window Recurrences

B2P Algorithm

Transfer Operator

Artificial Intelligence