DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
Seek .Seek .(US:SKLTY) 新浪财经·2026-01-01 19:45

核心观点 - DeepSeek团队于2026年发布新论文,对深度学习基础组件“残差连接”进行了重大升级,提出了一种名为“Modified Hyper-Connections (mHC)”的新方法,旨在解决现有扩展方案“Hyper-Connections (HC)”的稳定性问题,同时提升模型性能 [1][27] - 该方法通过将残差映射矩阵约束为“双随机矩阵”,从理论上保证了深度网络训练时的稳定性,并通过一系列工程优化控制了计算开销 [11][36] - 实验证明,在高达270亿参数规模的混合专家模型上,mHC能实现稳定训练,并在多个下游评测任务上超越基线模型和HC方法,性能提升显著 [22][47] 技术背景与问题 - 残差连接自2016年ResNet提出以来,因其“恒等映射”特性成为深度学习架构的基石,并广泛应用于Transformer及GPT、LLaMA等大语言模型 [5][6][31][32] - 近期出现的Hyper-Connections试图通过将残差流宽度从C维扩展到n×C维(引入三个可学习映射矩阵)来提升性能,其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [7][32] - 但HC在扩展到深层网络时存在严重隐患:复合映射不再保持恒等性质,导致训练不稳定 [9][34] - 在270亿参数模型的训练中,HC在约12000步时出现突发损失激增和梯度范数剧烈波动 [9][34] - 研究团队计算发现,HC的复合映射对信号的放大倍数峰值高达3000倍,意味着信号在层间传播可能被剧烈放大或衰减至近乎消失 [10][35] 核心解决方案:双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体上 [11][36] - 双随机矩阵约束带来三个关键理论性质:1) 范数保持(谱范数≤1),防止信号放大和梯度爆炸;2) 组合封闭(多个双随机矩阵相乘仍为双随机矩阵),确保深层网络复合映射的稳定性;3) 几何上可解释为对特征做凸组合,是一种稳健的特征融合机制 [14][15][39][40] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上 [16][41] - 实验证明该方案有效:在270亿模型中,mHC的复合映射信号增益最大值约为1.6,与HC的3000峰值形成三个数量级的差距 [16][41] 工程优化 - 扩展残差流宽度带来额外内存开销:标准残差连接每个token需读取2C、写入C个元素;而HC需读取(5n+1)C + n² + 2n、写入(3n+1)C + n² + 2n个元素,当扩展率n=4时增量可观 [19][44] - 团队使用TileLang框架实现多个融合内核,合并操作以减少内存访问次数 [19][44] - 为Sinkhorn-Knopp算法设计了专门的前向和反向内核,在芯片上重计算中间结果以避免存储开销 [19][44] - 扩展了DualPipe调度策略,通过将MLP层特定内核置于高优先级计算流,实现计算与通信的重叠 [19][44] - 论文给出了最优重计算块大小的优化公式,并选择将其与流水线阶段边界对齐以提升效率 [20][45][47] 实验验证与性能表现 - 实验在30亿、90亿和270亿三个规模的混合专家模型上进行,扩展率n设为4 [22][47] - 在270亿MoE模型上,mHC展现出稳定训练曲线,最终损失相比基线降低0.021,同时保持了与基线相当的梯度范数稳定性 [22][47] - 在下游任务评测中,mHC在BBH推理任务上比HC提升2.1%,在DROP阅读理解任务上提升2.3% [22][47] - 具体评测数据对比(270亿模型): - BBH (EM): 基线43.8, HC 48.9, mHC 51.0 - DROP (F1): 基线47.0, HC 51.6, mHC 53.9 - GSM8K (EM): 基线46.7, HC 53.2, mHC 53.8 - HellaSwag (Acc.): 基线73.7, HC 74.3, mHC 74.7 - MATH (EM): 基线22.0, HC 26.4, mHC 26.0 - MMLU (Acc.): 基线59.0, HC 63.0, mHC 63.4 - PIOA (Acc.): 基线78.5, HC 79.9, mHC 80.5 - TriviaOA (EM): 基线54.3, HC 56.3, mHC 57.6 [23][48] - mHC在大多数评测任务上表现超过基线和HC [23][48] - 计算缩放曲线显示,mHC的性能优势在更高计算预算下仍能保持,仅出现轻微衰减 [23][48] - 对30亿模型的token缩放曲线分析表明,mHC的优势贯穿整个训练过程 [23][48] - 内部大规模训练实验进一步证实结论,当扩展率n=4时,mHC仅引入6.7%的额外时间开销 [25][50]