DeepSeek改造何恺明残差连接！梁文峰亲自署名，十年首次重大升级

文章核心观点 - DeepSeek团队发布新论文，对深度学习基础组件“残差连接”进行了重要升级，提出了名为“双随机矩阵约束的混合连接”的新方法，旨在解决现有扩展方案存在的训练不稳定问题，并在保持稳定性的同时提升模型性能 [1][2][17] 技术背景与问题 - 残差连接是自2016年ResNet以来深度学习架构的基石，其核心是“恒等映射”属性，允许信号无损地从浅层传递到深层，这一设计已成为Transformer及GPT、LLaMA等大语言模型的标准配置 [7][8][9][10] - 近期出现的超连接试图通过将残差流宽度从C维扩展到n×C维并引入可学习映射矩阵来提升性能，其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [11][12] - 但超连接在扩展到多层时，复合映射不再保持恒等性质，导致训练不稳定，例如在27B模型训练约12000步时出现突发损失激增和梯度剧烈波动 [14] - 研究团队计算发现，在超连接中，复合映射对信号的放大倍数峰值可达3000倍，这意味着信号在层间传播时可能被过度放大或衰减至近乎消失，这是不稳定的根源 [16] 核心解决方案：双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体流形上，该矩阵要求每行每列之和为1且所有元素非负 [17][18] - 这种约束带来三个关键理论性质：1) 范数保持，谱范数不超过1，防止信号放大和梯度爆炸；2) 组合封闭，多个双随机矩阵相乘结果仍是双随机矩阵，确保深层网络跨层复合映射的稳定性；3) 几何解释，映射相当于对特征做凸组合，是一种稳健的特征融合机制 [18][19] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上，实验数据显示，在27B模型中，新方法的复合映射信号增益最大值约为1.6，与超连接的3000形成了三个数量级的差距，从根本上解决了稳定性问题 [21] 工程优化与性能 - 扩展残差流宽度会带来额外内存开销，例如当扩展率n=4时，超连接的内存读写元素数量显著高于标准残差连接 [24] - 团队为此进行了一系列基础设施优化：使用TileLang框架实现融合内核以减少内存访问次数；为Sinkhorn-Knopp算法设计专门的前向和反向内核，在芯片上重算中间结果以避免存储开销；扩展DualPipe调度策略，通过将MLP层内核置于高优先级计算流来实现计算与通信重叠 [25][26][27] - 论文还给出了重计算策略的优化公式，并将重计算边界与流水线阶段边界对齐，以优化训练效率 [28][29] 实验验证结果 - 实验在3B、9B和27B三个规模的混合专家模型上进行，扩展率n设为4 [30] - 在27B参数的混合专家模型上，新方法展现出稳定的训练曲线，最终损失相比基线降低了0.021，同时保持了与基线相当的梯度范数稳定性 [31] - 在下游任务评测中，新方法在BBH推理任务上比超连接提升2.1%，在DROP阅读理解任务上提升2.3%，在大多数任务上不仅超过基线，也超过了超连接 [31] - 具体数据：在27B模型上，新方法在BBH得分为51.0，超连接为48.9，基线为43.8；在DROP上，新方法为53.9，超连接为51.6，基线为47.0；新方法在其他多个基准测试中也普遍优于或持平于超连接 [32] - 计算缩放曲线显示，新方法的性能优势在更高计算预算下仅出现轻微衰减，且对3B模型的token缩放曲线分析表明其优势贯穿整个训练过程 [32] - 大规模训练实验证实，当扩展率n=4时，新方法仅引入6.7%的额外时间开销 [35]