AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉
机器之心·2026-01-21 08:32

核心观点 - 北京大学和清华大学的研究团队提出了一种名为WaveFormer的新型视觉主干网络,其核心创新在于使用波动方程作为全局建模机制,以替代传统的自注意力或热传导方程方法[2] - 该方法将视觉特征图视为在“传播时间”内演化的空间信号,通过欠阻尼波动方程实现全局交互,旨在同时精准保留图像的高频细节(如边缘、纹理)和低频全局结构,解决了现有方法中高频细节易丢失的问题[2][11] - WaveFormer在多项核心视觉任务(如图像分类、目标检测、语义分割)上实现了速度、效率与精度的全面超越,在保持竞争性精度的同时,显著提升了计算吞吐量并降低了计算复杂度[23][29] 方法原理 - 核心思想是将全局交互从“相似度匹配”转向“波传播动力学”,把图像特征视为“波场”,让语义信息像波一样振荡传播[10] - 引入了欠阻尼波动方程的频域闭式解,该解允许一个“初始速度场”,从而显式地建模空间频率,实现了频率-时间解耦:不同频率分量以不同方式振荡和衰减,但都参与全局语义传播[11][12][14] - 关键推导表明,与热方程的高频分量随时间急速衰减不同,WaveFormer的衰减项对不同频率更“公平”,频率差异主要体现在振荡项上,这使得高频细节得以保留[14][16][18] 技术实现 - 研究团队将波动方程的频域解实现为一个名为WPO的可替换算子,其核心计算通过快速傅里叶变换在频域进行,全局建模复杂度为O(N log N),远低于自注意力的平方复杂度[18][19][20] - WPO的实现流程清晰:将输入特征图变换到频域,用波动方程的解对每个频率分量进行振荡式调制,再逆变换回空间域,完成一次全局语义传播[19] - WaveFormer采用层级式骨干网络结构,由stem和四个阶段组成,每个阶段包含WPO Block,可作为ViT或CNN的即插即用主干网络[20] 性能表现 - ImageNet-1K图像分类:WaveFormer-B模型在10.8G FLOPs68M参数下,达到了84.2%的Top-1准确率[28][32] - COCO目标检测与实例分割:使用Mask R-CNN框架,WaveFormer-B在1×训练计划下达到47.9% APb43.2% APm,推理速度为20.4 img/s,比Swin-B和ConvNeXt-B分别快48%45%[30][33] - ADE20K语义分割:WaveFormer-B达到50.5% mIoU,同时在FLOPs和推理速度(FPS)上均具优势[31][33] - 综合来看,与Swin、ConvNeXt等主流模型相比,WaveFormer在保持竞争精度的同时,最高可带来1.6倍吞吐量提升和30%的FLOPs降低[29] 意义与影响 - WaveFormer为视觉基础模型开辟了频域处理的新路径,提供了一种新的、受物理启发的建模偏置,用于同时捕捉全局一致性与高频细节[22][35] - 该研究代表了视觉全局建模范式的转变:从**“token相似度交互”转向“语义场的动力学传播”;从隐式处理频率转向显式建模高低频演化**;从黑盒模块转向可解释、可控的传播过程[36] - 这项成果证明了经典的物理波动规律能够为现代人工智能提供强大的归纳偏置,不仅限于视觉领域,也为未来多模态语义传播的研究提供了启示[35][36]

AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉 - Reportify