Workflow
三元线性注意力
icon
搜索文档
Meta新注意力机制突破Transformer上限,还用上了OpenAI的开源技术
量子位· 2025-07-07 17:35
技术突破 - Meta开发出新架构2-Simplicial Transformer,通过修改标准注意力机制,使Transformer能更高效利用训练数据,突破大模型发展的数据瓶颈[2] - 核心方法基于OpenAI提出的Triton,将标准点积注意力推广到三线性函数[3] - 在同等参数量和数据量下,新架构在数学、编程、推理等任务上表现优于传统Transformer,且缩放指数更高,意味着随着参数增加性能提升更快[4] 技术细节 - 新架构将点积注意力从二元线性操作扩展到三元线性操作,引入第三个向量K'增加模型对复杂模式的表达能力[6][7] - 通过三元线性函数计算注意力,公式为$$A_{i j k}^{(2\mathrm{s})}=\frac{\langle\mathbf{q}_{i},\mathbf{k}_{j},\mathbf{k}_{k}^{\prime}\rangle}{\sqrt{d}}=\frac{1}{\sqrt{d}}\sum_{l=1}^{d}Q_{i l}K_{j l}K_{k l}^{\prime},$$[9] - 使用OpenAI的Triton框架实现核心运算,达到520TFLOPS性能[11][12] - 引入滑动窗口机制降低计算成本同时保持性能[14] 实验结果 - 测试模型规模从活跃参数10亿/总参数570亿到活跃参数35亿/总参数1760亿不等[16] - 在小模型(1B)上改进有限,但在较大模型上表现显著优于传统Transformer[18][19] - 2-Simplicial Transformer的缩放指数α比传统Transformer高18.5%(GSM8k)、8.5%(MMLU)、20.2%(MMLU-pro)、6.8%(MBPP)[21] 行业影响 - Meta不仅挖走OpenAI员工,还成功应用OpenAI的技术实现新突破[27] - 新架构引发行业讨论,同时为OpenAI的Triton技术做了宣传[23][26]