研究背景与核心问题 - Transformer模型在计算机视觉领域面临高分辨率图像和超长序列任务带来的算力与显存瓶颈,标准Softmax注意力的二次复杂度导致70K+token的超分辨率任务显存爆炸,推理延迟高[2] - 线性注意力通过核函数重构实现了线性复杂度,解决了算力开销,但始终存在性能退化问题,无法达到原生Softmax注意力的精度水平[3] 核心技术创新:NaLaFormer框架 - 研究团队提出NaLaFormer框架,通过模长-方向分解精准定位并解决了线性注意力的两大核心缺陷,在保持线性复杂度的同时实现了视觉任务精度的全面超越[3] - 在70K+token超分任务中实现92.3%的峰值显存降低,为线性注意力在视觉领域的落地开辟了新范式[3] - 系统性揭示了线性注意力性能不佳的两大根源:1) Query向量的模长在归一化中被抵消,导致注意力分布尖峰性丢失;2) 非负性约束导致不可逆的信息损失[6][8] 技术方案细节 - 针对Query Norm被抵消的问题,设计了Query-Norm-Aware特征映射,将Query Norm显式编码进核函数,通过锐化函数动态调控注意力熵,复刻了Softmax注意力中“Query模长越大,注意力分布越尖锐”的核心特性[10][13][14] - 针对非负性约束的信息丢失问题,提出了余弦方向相似度机制,基于几何变换在保证非负性的同时完整保留内积的细粒度信息,避免了传统激活函数带来的信息损失[15][16] - 构建了统一的NaLaFormer架构,将模长感知线性注意力模块与门控架构深度融合,实现了对视觉Transformer的直接替换[17][20] 性能表现:图像分类 - 在ImageNet-1K图像分类任务上,NaLaFormer实现了对现有线性注意力模型的全面超越[22] - 轻量级NaLaFormer-XT仅8M参数量达到79.1% Top-1精度,同量级下较基线最高提升7.5%[22] - 大规模NaLaFormer-L以95M参数量实现85.7% Top-1精度,刷新了高效视觉模型在该基准上的纪录[22] 性能表现:密集预测任务 - 在COCO目标检测任务中,NaLaFormer-T基于Mask R-CNN框架实现47.6% APb、43.0%分割APm,全面超越同量级经典视觉Transformer骨干[24] - 在ADE20K语义分割任务中,较同量级基线最高提升4.7% mIoU[24] - 在CityScapes城市场景分割任务中以82.5% mIoU领跑同规模模型[24] 性能表现:超分辨率任务 - 在70K+token的高分辨率超分任务中,NaLaFormer的线性复杂度优势被彻底释放[26] - 在Urban100 4×超分任务中实现36.4%的推理延迟降低,峰值显存从69G降至5.3G,降幅高达92.3%[26][27] 性能表现:长序列与跨模态能力 - 在长序列建模基准Long Range Arena上,NaLaFormer实现61.2%的平均精度,刷新了线性注意力模型的SOTA纪录,同时保持827.7的高吞吐量与极低显存占用[29] - 从零训练340M参数量的语言模型,在常识推理任务中,NaLaFormer平均得分超越Mamba、RetNet、GLA等强基线[29] 性能表现:扩散生成模型 - 在扩散Transformer框架中,将原始注意力模块替换为NaLaFormer后,生成质量稳步提升[31] - NaLaDiT相比原版DiT,FID从68.40降至61.64,IS提升至23.24[31] - NaLaSiT在SiT变体中的表现,FID低至53.08,sFID 8.94,IS 27.63[31][32]
全新线性注意力范式!哈工深张正团队提出模长感知线性注意力!显存直降92.3%!
机器之心·2026-03-15 11:30