Translution
搜索文档
浙大提出Translution:统一Self-attention和Convolution,ViT、GPT架构迎来新一轮性能突破
AI科技大本营· 2025-10-14 16:17
核心技术突破 - 浙江大学与新加坡国立大学联合提出新型深度神经网络基础操作Translution 旨在融合Self-Attention的自适应建模优势与Convolution的相对位置建模能力 [1] - Translution的核心思想是将卷积操作中的固定权重核转变为由自注意力机制动态生成的自适应核 从而灵活捕获与数据本身内在结构相关且与绝对位置无关的表征 [5] - 该技术实现了Self-attention和Convolution两种操作的统一 被描述为合二为一的性能怪兽 [8] 性能表现 - 基于Translution构建的神经网络在ViT和GPT两大主流架构下均获得性能提升 展现出广阔应用前景 [3] - 在ImageNet数据集上 基于Translution构建的ViT取得明显优于Self-attention的效果 [4] - 在自然语言建模任务中 基于Translution构建的GPT模型在不同参数规模下均超越Self-attention 例如GPT-A-160架构下困惑度从60.40降至56.26 [4] 行业背景与影响 - 当前基于Self-Attention的Transformer是深度学习主流架构 但其Scaling Law红利正逐渐触顶 单纯增加参数和训练数据难以带来性能提升 [5] - Translution是对上述行业挑战的有力回应 被视为探索新型神经网络以持续推动深度学习繁荣的重要尝试 [5] - 该技术对算力特别是GPU显存提出更高要求 可能进一步加剧人工智能领域的资源差距 [6]