刚刚，梁文锋署名，DeepSeek元旦新论文要开启架构新篇章

文章核心观点 - DeepSeek公司发布了一篇新论文，提出了一种名为“流形约束超连接”的新架构，旨在解决传统超连接在大规模模型训练中的不稳定性问题，同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构，并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上，成功解决了超连接在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] - 该方法在保留“加宽残差流”带来的性能提升的同时，解决了其导致的训练不稳定和显存消耗过大的问题 [4] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性，但瓶颈在于信息通道的宽度受限于隐藏层维度 [3] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式，拓展了残差连接范式，带来了显著的性能提升，但也带来了两个严重问题 [3] - 问题一：从根本上破坏了残差连接固有的恒等映射属性，导致了严重的训练不稳定性和受限的可扩展性 [3] - 问题二：额外增加了显著的内存访问开销 [3] - 原始的HC中，连接矩阵是自由学习的，没有约束，导致信号在经过多层传播后，数值会“爆炸”或“消失”，破坏了恒等映射的特性，模型越深越难训练 [6] - 通道变宽意味着显存读写和通信成本成倍增加，即“显存墙”问题 [6] mHC方法原理 - mHC是一个通用框架，它将HC的残差连接空间投影到一个特定的流形上，以恢复恒等映射属性，同时结合严格的基础设施优化以确保效率 [3] - 核心前提是将残差映射约束在一个特定的流形上，既能保持跨层信号传播的稳定性，又能促进残差流之间的相互作用，以保持模型的表达能力 [8][9] - 具体做法是将残差映射限制为双拟随机矩阵，即具有非负项且行和与列和均为1的矩阵 [10] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上，这使得信号传播变为特征的“凸组合”，从数学上严格保证了信号范数的稳定性 [4] - 选择双拟随机性的原因包括：其谱范数有界且不超过1，这意味着学习到的映射是非扩张的，可有效缓解梯度爆炸问题 [15] - 双拟随机矩阵集对矩阵乘法具有封闭性，确保了跨多层的复合残差映射仍保持双拟随机，从而可在整个模型深度上维持稳定性 [15] - 该集合构成了Birkhoff多胞形，是排列矩阵集的凸包，这意味着残差映射充当了排列的凸组合，其重复应用会单调地增加跨流的信息混合，起到鲁棒的特征融合作用 [15] - 团队还对输入映射和输出映射施加了非负约束，以防止因正负系数复合导致的信号抵消 [12] - 最终的约束映射通过Sinkhorn-Knopp算子获得，在实验中采用t_max=20次迭代 [16] 高效基础设施设计 - DeepSeek为mHC量身定制了基础设施设计，使其在扩展倍率n=4时在大模型中的训练开销仅增加6.7% [4][17] - 算子融合：重新调整RMSNorm的顺序以提高效率，并采用混合精度策略 [17] - 开发了统一的算子，将多次扫描和矩阵乘法融合，减少内存带宽瓶颈和算子启动开销 [18] - 在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播 [19] - 将输入和输出映射的应用与残差合并融合，显著减少了内存读写量 [20] - 重计算：为了减轻n流设计带来的内存压力，在前向传播后丢弃mHC算子的中间激活，并在反向传播时即时重新计算 [21] - 通过推导得出最优重计算块大小，以最小化总内存占用 [22] - DualPipe中的通信重叠：扩展了DualPipe调度算法，以改善流水线并行阶段边界处的通信与计算重叠 [23] - 在专用高优先级计算流上执行MLP层的内核，并避免在注意力层使用持久算子，以防止阻塞通信流并提高设备利用率 [23] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性，并对基线模型、超连接以及提出的mHC进行了对比分析 [25] - 采用了受DeepSeek-V3启发的MoE架构，训练了四种不同的模型变体 [26] - HC和mHC的扩展率n均设置为4，主要关注点是一个27B参数规模的模型 [26] - 训练了较小的3B和9B模型来分析计算扩展性，并训练了一个独立的3B模型在一个固定的1T Token的语料库上以研究Token规模的影响 [26] - 27B模型的总参数量为27.0B，训练了262B个Token [27] 实验结果：训练稳定性 - 在27B参数规模的模型上，mHC有效缓解了在HC中观察到的训练不稳定问题，与基线模型相比，最终损失降低了0.021 [29] - 梯度范数分析证实了稳定性的提升：mHC表现出明显优于HC的行为，保持了与基线模型相当的稳定轮廓 [29] 实验结果：下游任务性能 - 在8个不同的下游基准测试中，mHC始终优于基线模型，并在大多数基准测试中超越了HC [30] - 与HC相比，mHC进一步增强了模型的推理能力，在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [31] - 具体性能数据对比（27B模型）： - BBH：基线43.8， HC 48.9， mHC 51.0 [30] - DROP：基线47.0， HC 51.6， mHC 53.9 [30] - GSM8K：基线46.7， HC 53.2， mHC 53.8 [30] - HellaSwag：基线73.7， HC 74.3， mHC 74.7 [30] - MATH：基线22.0， HC 26.4， mHC 26.0 [30] - MMLU：基线59.0， HC 63.0， mHC 63.4 [30] - PIOA：基线78.5， HC 79.9， mHC 80.5 [30] - TriviaOA：基线54.3， HC 56.3， mHC 57.6 [30] 实验结果：规模扩展性 - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模的规模扩展过程，轨迹表明即使在更高的计算预算下，性能优势依然稳健地得以保持，仅表现出轻微的衰减 [34] - Token扩展曲线展示了3B模型在训练过程中的轨迹，验证了mHC在大规模场景下的有效性 [34]