阿里RTPurboV2：原生Transformer再次崛起，百步训练实现10倍稀疏注意

注意力机制演进与行业趋势 - 随着Agent应用带来的长序列需求，传统GPT架构的Full Attention因其O(N²)的计算复杂度被视为性能瓶颈，正逐渐被替换[1] - 当前业界主流的注意力优化方案分为两种：Linear Attention（以Qwen-Next和Kimi-K2为代表）可将存储和计算代价分别压缩至O(1)和O(N)；Sparse Attention（如DeepSeek-V4采用）则通过稀疏化优化，实践中稀疏度可达90%以上[1] - 近期一些开源架构如MIMO、Gemma4、GPT-OSS采用了“大道至简”的设计思路，即结合滑动窗口注意力(SWA)与少量Full Attention的混合架构[2] RTPurboV2核心技术突破 - RTPurboV2是阿里RTP团队推出的第二代注意力压缩技术，旨在彻底解决超长序列（如100万token）下的Attention推理瓶颈[3] - 该技术通过结合Headwise压缩、低秩投影压缩及聚类技术，在V1架构基础上，对Full Attention部分进一步实现了16-32倍的计算压缩[3] - 其核心设计理念并非“强加”稀疏性，而是“释放”预训练Full Attention模型中已自发形成的高度稀疏的注意力结构[6] 注意力头职责分离的关键发现 - 研究发现，在Full Attention模型中，约15%的注意力头表现出“召回头”特征，负责长距离信息检索；其余85%为“流式头”，更多关注局部上下文[12] - 这种分工模式在不同输入和序列长度下高度稳定，是模型预训练中自发习得的内在结构[9] - 直接推论是：85%的Full Attention计算可以安全地替换为滑动窗口注意力(SWA)，几乎不影响模型能力[9] 低秩投影压缩技术 - 研究发现召回头在RoPE位置编码下存在显著的维度冗余，其高频分量被压制，本质上只利用低频分量进行语义匹配[13] - RTPurboV2通过训练一个低维投影器，将原始特征维度从D压缩至r=16（r≪D），系统性地保留低频语义分量并过滤高频位置噪声[15] - 实验验证，仅16维的低秩投影即可达到90%以上的token召回率[15] 基于聚类的序列维度压缩 - 低秩投影过滤高频噪声后，语义相似的token在低维空间中天然聚拢，为序列维度的进一步压缩创造了条件[16] - 技术采用两级漏斗式计算流程：1) 粗粒度匹配：将N个token聚类为K个语义簇（如K=128），Query先与K个簇中心进行轻量级匹配（复杂度O(N·K)）；2) 细粒度计算：仅在命中的相关簇内执行完整Attention计算[17] - 通过此方法，整体计算复杂度从O(N²)跃迁至O(N·K)，其中K远小于N[17] 动态Top-p策略 - 传统固定top-k策略存在根本性问题，不同注意力头、序列长度和query所需的上下文token数量差异巨大[19] - 以64K上下文为例，覆盖90%注意力质量所需的token数在不同召回头间差异可达三个数量级（如从21个到39614个）[22] - RTPurboV2采用动态top-p策略，为每个query保留累积注意力得分达到p（如0.9）的token集合，并设计了无排序的top-p解码核，通过256-bin直方图替代排序操作，将内存开销压缩至O(1)[22] 高效微调训练 - 让模型适配RTPurboV2稀疏化架构仅需训练约600步，约100万标签token，在数十万亿token的预训练语境下几乎可忽略[24] - 训练分为两阶段：1) 投影对齐：冻结模型主体，仅训练各召回头的低秩投影矩阵，最小化投影与原始注意力分布间的KL散度；2) 端到端自蒸馏：启用稀疏模式，让稀疏模型学习原始稠密模型的next-token预测分布[24] - 这从另一角度验证了核心论点：Full Attention的稀疏性是内生的，微调只是完成从隐式到显式的转化[24] 性能评估结果 - 在Qwen3-Coder-30B-A3B模型的Ruler基准测试中，RTPurboV2在32K和64K序列长度下的平均得分分别为89.69和85.61，显著优于除Full Attention外的所有基线方法[27] - 在Qwen3.5-35B-A3B模型的LongBenchV2基准测试中，RTPurboV2实现了整体得分45.4，与Full Attention的44.1持平，表明其在70%以上Head具有召回特性的模型中，能在大幅降低计算开销的同时完整保留模型能力[30] - 在链式思维推理任务中，RTPurboV2在AIME24、AIME25和MMLU-PRO任务上分别取得86.60、85.88和82.47的得分，与Full Attention（86.67, 86.67, 82.97）表现接近，验证了其在复杂逻辑场景下的鲁棒性[32] 行业影响与意义 - RTPurboV2揭示了Full Attention模型自身蕴含着巨大的效率空间，释放这种内生稀疏性的成本极低（600步训练，精度几乎无损，Prefill最高9.36倍加速）[33] - 对于已选择SWA + Full Attention混合架构的团队（包括MIMO、Gemma 4、GPT-OSS），无需替换架构即可获得接近SOTA新方案的压缩效率[33] - 该技术表明原生Transformer架构并未过时，通过高效挖掘其内在潜力，Full Attention仍能发挥重要作用[34]