极性感知线性注意力
搜索文档
哈工大孟维康:让注意力有 “棱角”|Attention
36氪· 2025-10-20 15:58
Transformer架构的行业现状与挑战 - Transformer作为生成式AI的核心架构,几乎定义了整个行业的技术走向,其核心模块Self-Attention在视觉与语言模型领域几乎成为标配[1] - Self-Attention机制面临空间平方复杂度的挑战,这意味着昂贵的投入和巨大的能耗,导致模型训练陷入资源军备竞赛,令中小团队和企业望而却步[1] - 学界与产业界持续探索平衡效率与性能的方法,Linear Attention是代表性尝试,旨在通过核函数降低计算复杂度[1] Linear Attention的技术瓶颈 - Linear Attention通过核函数替代Softmax以降低复杂度,但存在两大硬伤:注意力分布变“平”(高熵)导致模型区分能力削弱,以及在精细细节或重要特征中丧失尖锐性[1] - 使用非负核函数近似Softmax时,所有负数信息被“截掉”,导致模型只能看到“正相关”而看不到“负相关”或“抑制关系”,使注意力图变得片面并影响表达力[2] PolaFormer的创新解决方案 - 针对高熵问题,研究提出通过设计一种新的核函数来降低权重分布的信息熵,要求映射函数一阶和二阶导数均大于0,从而重新缩放权重矩阵响应以降低熵[3] - 对于负值丢失问题,工作提出通过极性感知的计算方式,实现注意力权重矩阵所有元素平等地进行相似度计算,以不降低模型表现能力[3] - PolaFormer采用双支线极性建模与可学习幂函数的混合策略,将Query和Key向量拆成正负部分,并设计并行支线分别处理同号交互和异号交互[4] - 在Value向量侧也进行拆分并送入两条支路,引入两个可学习矩阵对支线结果进行加权调节并拼接,同时叠加可学习通道级幂函数使注意力分布更尖锐[6] PolaFormer的实验验证与应用前景 - 在目标检测、语义分割、图像分类和长序列基准等多种任务上的实验表明,Polarity-Aware Linear Attention可有效替代Vision Transformer中的Self-Attention模块,并显示出明显性能提升[7] - 研究背景源于产业界更在意模型部署效率,如在移动端或纯客户端上运行,而像LLaMA、qwen系列数十B规模的模型在资源受限情境下仍难落地[8] - 选择优化Linear Attention而非Sparse Attention的原因在于,后者在模型规模增大时性能不能很好维持,存在随机丢失信息的风险,而Linear Attention通过矩阵分解保证复杂度下降的同时不丢失全局信息[8][9] - 未来突破核心在于如何在保持表达力的同时将Attention做得更“轻量化”,尤其是在终端部署、算力受限场景和大模型训练中[29] - 算法与硬件协同设计是未来方向,长序列模型部署面临单卡GPU显存限制、通信开销等问题,需要共同解决部署瓶颈[30] - PolaFormer在长序列和高分辨率场景应用潜力大,如视频处理、大语言模型和高分辨率生成模型,在LLaMA长上下文设定上已显示出明显效率提升[31]