Workflow
WaveFormer
icon
搜索文档
AAAI 2026 Oral | 告别注意力与热传导!北大清华提出WaveFormer,首创波动方程建模视觉
机器之心· 2026-01-21 08:32
核心观点 - 北京大学和清华大学的研究团队提出了一种名为WaveFormer的新型视觉主干网络,其核心创新在于使用**波动方程**作为全局建模机制,以替代传统的自注意力或热传导方程方法[2] - 该方法将视觉特征图视为在“传播时间”内演化的空间信号,通过**欠阻尼波动方程**实现全局交互,旨在同时精准保留图像的高频细节(如边缘、纹理)和低频全局结构,解决了现有方法中高频细节易丢失的问题[2][11] - WaveFormer在多项核心视觉任务(如图像分类、目标检测、语义分割)上实现了**速度、效率与精度的全面超越**,在保持竞争性精度的同时,显著提升了计算吞吐量并降低了计算复杂度[23][29] 方法原理 - 核心思想是**将全局交互从“相似度匹配”转向“波传播动力学”**,把图像特征视为“波场”,让语义信息像波一样振荡传播[10] - 引入了**欠阻尼波动方程的频域闭式解**,该解允许一个“初始速度场”,从而显式地建模空间频率,实现了**频率-时间解耦**:不同频率分量以不同方式振荡和衰减,但都参与全局语义传播[11][12][14] - 关键推导表明,与热方程的高频分量随时间急速衰减不同,WaveFormer的衰减项对不同频率更“公平”,频率差异主要体现在振荡项上,这使得高频细节得以保留[14][16][18] 技术实现 - 研究团队将波动方程的频域解实现为一个名为**WPO**的可替换算子,其核心计算通过快速傅里叶变换在频域进行,全局建模复杂度为**O(N log N)**,远低于自注意力的平方复杂度[18][19][20] - WPO的实现流程清晰:将输入特征图变换到频域,用波动方程的解对每个频率分量进行**振荡式调制**,再逆变换回空间域,完成一次全局语义传播[19] - WaveFormer采用层级式骨干网络结构,由stem和四个阶段组成,每个阶段包含WPO Block,可作为ViT或CNN的即插即用主干网络[20] 性能表现 - **ImageNet-1K图像分类**:WaveFormer-B模型在**10.8G FLOPs**和**68M参数**下,达到了**84.2%**的Top-1准确率[28][32] - **COCO目标检测与实例分割**:使用Mask R-CNN框架,WaveFormer-B在1×训练计划下达到**47.9% APb**和**43.2% APm**,推理速度为**20.4 img/s**,比Swin-B和ConvNeXt-B分别快**48%**和**45%**[30][33] - **ADE20K语义分割**:WaveFormer-B达到**50.5% mIoU**,同时在FLOPs和推理速度(FPS)上均具优势[31][33] - 综合来看,与Swin、ConvNeXt等主流模型相比,WaveFormer在保持竞争精度的同时,**最高可带来1.6倍吞吐量提升和30%的FLOPs降低**[29] 意义与影响 - WaveFormer为视觉基础模型开辟了**频域处理的新路径**,提供了一种新的、受物理启发的建模偏置,用于同时捕捉全局一致性与高频细节[22][35] - 该研究代表了视觉全局建模范式的转变:从**“token相似度交互”转向“语义场的动力学传播”**;从**隐式处理频率转向显式建模高低频演化**;从**黑盒模块转向可解释、可控的传播过程**[36] - 这项成果证明了**经典的物理波动规律能够为现代人工智能提供强大的归纳偏置**,不仅限于视觉领域,也为未来多模态语义传播的研究提供了启示[35][36]