表征坍塌

搜索文档
ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
机器之心· 2025-06-27 16:06
核心观点 - 彩云科技与北京邮电大学联合提出多路动态稠密连接(MUDD)作为残差连接的替代方案,显著提升Transformer跨层信息传递效率 [1][7] - MUDD连接仅增加0.23%参数量和0.4%计算量,使2.8B参数模型性能媲美6.9B(2.4倍)和12B(4.2倍)参数模型 [4] - 该技术已被ICML 2025接收,是继DCFormer后又一底层架构创新 [5] 背景 - 当前Transformer残差连接存在深层隐状态表征坍塌和残差流信息过载两大局限 [7][8] - 表征坍塌导致深层模型边际效应递减,相邻层隐状态高度相似 [8] - 残差流作为多层通信总线易因多路信息共享而超载,妨碍复杂回路形成 [8] 核心架构 - MUDD通过动态搭建跨层连接缓解表征坍塌,并为Q/K/V/R四路信息流定制独立连接 [7][13] - 连接权重由当前隐状态动态生成,实现深度维度的单头注意力机制 [11] - 相比静态连接的DenseFormer,动态连接能根据token上下文自适应调整信息提取 [10][11] 实验评估 - MUDDFormer在所有模型尺寸下均显著领先基线模型,834M性能超越1.89倍计算量的Transformer++ [15] - 深度扩展实验中,MUDDFormer在42层时仍保持收益,797M参数达到2.08倍Transformer++性能 [17] - 2.8B参数MUDDPythia在5-shot任务中准确率追平12B参数Pythia,实现4.2倍计算效率提升 [18][20] 技术优势 - 注意力头激活率平均比传统模型高2.4倍,显著增强Attention机制利用率 [23] - 通过独立动态连接有效缓解信息流干扰和残流过载问题 [7][13] - 模型在上下文学习中展现突出优势,特别适合复杂推理任务 [18][20][25]