超分辨率技术发展 - 超分辨率技术(SR)已成为计算机视觉领域重要挑战,应用场景包括医疗影像、卫星遥感、视频监控和游戏渲染等[1] - 传统深度学习模型(如SRCNN、EDSR)在固定放大倍数表现优异,但无法支持任意放大尺度或在大倍率下出现细节模糊[1] - 扩散模型能恢复高频细节但推理速度慢,难以满足实时需求[1] DiffFNO技术框架 - 由三大核心组件构成:加权傅里叶神经算子(WFNO)、门控融合机制、自适应ODE求解器[2][5] - WFNO通过频域卷积捕获全局信息,可学习频率权重放大高频分量,相比普通FNO在大倍率超分中PSNR提升0.3–0.5 dB[9][10] - 门控融合机制并行引入轻量化注意力算子(AttnNO),动态结合谱域与空域特征[5][12] - 自适应ODE求解器将扩散逆过程转化为确定性ODE,推理步数从1000步降至30步(减少33倍),推理时间从266 ms缩短至141 ms[15] 性能表现 - 在DIV2K等五大数据集上PSNR领先SOTA方法2~4 dB,大倍数放大(×8、×12)优势更显著[17] - 定性结果显示对建筑细节、植物纹理、动物皮毛等高频结构复原出色,边缘锐利且伪影少[20] - 消融研究表明:去除模式重平衡导致PSNR下降0.4 dB,去除AttnNO影响局部纹理,去除ATS会使推理步数回升至千步级[23] 技术突破 - 首次实现支持任意连续倍率(如2.1、11.5倍)的超分辨率重建[2] - 通过神经算子赋能扩散架构,打破"高质量重建"与"快速推理"矛盾[1][23] - 采用全模式保留策略,兼顾图片整体解构与局部细节[18] 学术认可 - 研究成果入选CVPR 2025 Oral报告[2] - 论文已发布于arXiv(编号2411.09911)并提供开源项目主页[7]
CVPR 2025 Oral | DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
机器之心·2025-05-04 12:57