阿里RTPurboV2:原生Transformer再次崛起,百步训练实现10倍稀疏注意
机器之心·2026-06-08 10:09

注意力机制演进与行业趋势 - 随着Agent应用带来的长序列需求,传统GPT架构的Full Attention因其O(N²)的计算复杂度被视为性能瓶颈,正逐渐被替换[1] - 当前业界主流的注意力优化方案分为两种:Linear Attention(以Qwen-Next和Kimi-K2为代表)可将存储和计算代价分别压缩至O(1)和O(N);Sparse Attention(如DeepSeek-V4采用)则通过稀疏化优化,实践中稀疏度可达90%以上[1] - 近期一些开源架构如MIMO、Gemma4、GPT-OSS采用了“大道至简”的设计思路,即结合滑动窗口注意力(SWA)与少量Full Attention的混合架构[2] RTPurboV2核心技术突破 - RTPurboV2是阿里RTP团队推出的第二代注意力压缩技术,旨在彻底解决超长序列(如100万token)下的Attention推理瓶颈[3] - 该技术通过结合Headwise压缩、低秩投影压缩及聚类技术,在V1架构基础上,对Full Attention部分进一步实现了16-32倍的计算压缩[3] - 其核心设计理念并非“强加”稀疏性,而是“释放”预训练Full Attention模型中已自发形成的高度稀疏的注意力结构[6] 注意力头职责分离的关键发现 - 研究发现,在Full Attention模型中,约15%的注意力头表现出“召回头”特征,负责长距离信息检索;其余85%为“流式头”,更多关注局部上下文[12] - 这种分工模式在不同输入和序列长度下高度稳定,是模型预训练中自发习得的内在结构[9] - 直接推论是:85%的Full Attention计算可以安全地替换为滑动窗口注意力(SWA),几乎不影响模型能力[9] 低秩投影压缩技术 - 研究发现召回头在RoPE位置编码下存在显著的维度冗余,其高频分量被压制,本质上只利用低频分量进行语义匹配[13] - RTPurboV2通过训练一个低维投影器,将原始特征维度从D压缩至r=16(r≪D),系统性地保留低频语义分量并过滤高频位置噪声[15] - 实验验证,仅16维的低秩投影即可达到90%以上的token召回率[15] 基于聚类的序列维度压缩 - 低秩投影过滤高频噪声后,语义相似的token在低维空间中天然聚拢,为序列维度的进一步压缩创造了条件[16] - 技术采用两级漏斗式计算流程:1) 粗粒度匹配:将N个token聚类为K个语义簇(如K=128),Query先与K个簇中心进行轻量级匹配(复杂度O(N·K));2) 细粒度计算:仅在命中的相关簇内执行完整Attention计算[17] - 通过此方法,整体计算复杂度从O(N²)跃迁至O(N·K),其中K远小于N[17] 动态Top-p策略 - 传统固定top-k策略存在根本性问题,不同注意力头、序列长度和query所需的上下文token数量差异巨大[19] - 以64K上下文为例,覆盖90%注意力质量所需的token数在不同召回头间差异可达三个数量级(如从21个到39614个)[22] - RTPurboV2采用动态top-p策略,为每个query保留累积注意力得分达到p(如0.9)的token集合,并设计了无排序的top-p解码核,通过256-bin直方图替代排序操作,将内存开销压缩至O(1)[22] 高效微调训练 - 让模型适配RTPurboV2稀疏化架构仅需训练约600步,约100万标签token,在数十万亿token的预训练语境下几乎可忽略[24] - 训练分为两阶段:1) 投影对齐:冻结模型主体,仅训练各召回头的低秩投影矩阵,最小化投影与原始注意力分布间的KL散度;2) 端到端自蒸馏:启用稀疏模式,让稀疏模型学习原始稠密模型的next-token预测分布[24] - 这从另一角度验证了核心论点:Full Attention的稀疏性是内生的,微调只是完成从隐式到显式的转化[24] 性能评估结果 - 在Qwen3-Coder-30B-A3B模型的Ruler基准测试中,RTPurboV2在32K和64K序列长度下的平均得分分别为89.69和85.61,显著优于除Full Attention外的所有基线方法[27] - 在Qwen3.5-35B-A3B模型的LongBenchV2基准测试中,RTPurboV2实现了整体得分45.4,与Full Attention的44.1持平,表明其在70%以上Head具有召回特性的模型中,能在大幅降低计算开销的同时完整保留模型能力[30] - 在链式思维推理任务中,RTPurboV2在AIME24、AIME25和MMLU-PRO任务上分别取得86.60、85.88和82.47的得分,与Full Attention(86.67, 86.67, 82.97)表现接近,验证了其在复杂逻辑场景下的鲁棒性[32] 行业影响与意义 - RTPurboV2揭示了Full Attention模型自身蕴含着巨大的效率空间,释放这种内生稀疏性的成本极低(600步训练,精度几乎无损,Prefill最高9.36倍加速)[33] - 对于已选择SWA + Full Attention混合架构的团队(包括MIMO、Gemma 4、GPT-OSS),无需替换架构即可获得接近SOTA新方案的压缩效率[33] - 该技术表明原生Transformer架构并未过时,通过高效挖掘其内在潜力,Full Attention仍能发挥重要作用[34]

阿里RTPurboV2:原生Transformer再次崛起,百步训练实现10倍稀疏注意 - Reportify