英伟达港大联手革新视觉注意力机制!GSPN高分辨率生成加速超84倍
量子位·2025-06-10 13:16
GSPN团队 投稿 量子位 | 公众号 QbitAI 二维线性传播:从行列并行到密集连接 视觉注意力机制 ,又有新突破,来自香港大学和英伟达。 Transformer的自注意力在NLP和计算机视觉领域表现出色——它能捕捉远距离依赖,构建深度上下文。然而,面对高分辨率图像时,传统自 注意力有两个大难题: 虽然线性注意力和Mamba等方法能把复杂度降到O(N),但它们还是把图像当作一维序列处理,无法真正利用二维空间信息。 为此,香港大学与英伟达联合推出了 广义空间传播网络(GSPN) 。 GSPN采用二维线性传播,结合"稳定性–上下文条件",将计算量从 O(N²) 或 O(N) 再降到√N级别,并完整保留图像的空间连贯性。这样,不 仅大幅提升了效率,还在多个视觉任务上刷新了性能纪录。 兼具空间连贯性和计算效率 GSPN的核心技术是 二维线性传播 与 稳定性-上下文条件 ,基于此,现有注意力机制与GSPN的对比如下: 作为GSPN的核心组件,二维线性传播包括两个关键点: 线扫描机制 对于二维图像,二维线性传播通过逐行或逐列的顺序处理进行其遵循线性循环过程,隐藏层通过前一行的隐藏状态和当前输入计算得出: 计算量巨大: ...