刚刚，梁文锋署名，DeepSeek元旦新论文要开启架构新篇章

核心技术创新：流形约束超连接 (mHC) - DeepSeek公司提出了一种名为流形约束超连接 (mHC) 的新架构，旨在解决传统超连接 (HC) 在大规模模型训练中的不稳定问题，同时保持其显著的性能增益 [1] - mHC通过将传统Transformer的单一残差流扩展为多流并行架构，并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上，成功解决了HC在大规模训练中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1] 技术背景与挑战 - 传统残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性，但其信息通道宽度受限于隐藏层维度 [3] - 以超连接 (HC) 为代表的研究通过扩展残差流宽度和多样化连接模式，拓展了残差连接范式，带来了显著的性能提升 [4] - 然而，HC从根本上破坏了残差连接固有的恒等映射属性，导致了严重的训练不稳定性和受限的可扩展性，并额外增加了显著的内存访问开销 [5] - 具体问题包括：1) 数值不稳定性，信号在经过多层传播后数值会“爆炸”或“消失”；2) 系统开销大，通道变宽意味着显存读写和通信成本成倍增加，即“显存墙”问题 [9] mHC 核心原理与设计 - mHC是一个通用框架，它将HC的残差连接空间投影到一个特定的流形上，以恢复恒等映射属性，同时结合严格的基础设施优化以确保效率 [6][7] - 其核心目的是在保留“加宽残差流”带来的性能提升的同时，解决其导致的训练不稳定和显存消耗过大的问题 [8] - 团队将残差映射限制为双拟随机矩阵（即行和与列和均为1的矩阵），该矩阵集构成了Birkhoff多胞形 [14][15] - 选择双拟随机性是因为其具有多项有利于大规模训练的理论属性：范数保持（谱范数有界且不超过1，可缓解梯度爆炸）、复合封闭性（确保跨多层仍保持稳定）、以及几何解释（作为排列矩阵的凸包，起到鲁棒的特征融合作用） [16][17] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上，这使得信号传播变为特征的“凸组合”，从数学上严格保证了信号范数的稳定性（能量守恒） [8] 高效基础设施优化 - 为抵消加宽通道带来的开销，团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [8] - 实证表明，在扩展倍率 n=4 的情况下，mHC仅增加了6.7%的训练时间开销 [8] - 具体优化包括：1) 算子融合：重新调整RMSNorm顺序，开发统一算子融合多次扫描和矩阵乘法，在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播，显著减少内存读写量 [23][24][25]；2) 重计算：在前向传播后丢弃mHC算子的中间激活，并在反向传播时即时重新计算，以减轻内存压力 [25]；3) 扩展DualPipe调度算法，改善流水线并行阶段边界处的通信与计算重叠 [27] 实验设置与模型配置 - 研究通过语言模型预训练验证方法有效性，对比了基线模型、HC以及mHC [28] - 采用了受DeepSeek-V3启发的MoE架构，训练了四种不同的模型变体，包括3B、9B、27B参数模型以及一个在固定1T Token语料上训练的3B模型 [29] - 主要关注的27B模型，其训练数据集大小与参数量成正比，用于展示系统层面的主要结果 [29] - HC和mHC的扩展率 n 均设置为4 [29] - 详细的模型配置参数见文档id=30的表格，涵盖了从词汇量参数、总参数量、层数、专家数量、维度、注意力头数到训练步数、批次大小、优化器设置等全方位信息 [30] 实验结果：训练稳定性与性能 - 在27B模型的训练中，mHC有效缓解了HC中观察到的训练不稳定问题，与基线模型相比，最终损失降低了0.021 [32] - 梯度范数分析证实，mHC表现出明显优于HC的稳定性，保持了与基线模型相当的稳定轮廓 [32] - 在下游基准测试中，mHC带来了全面的性能提升，一致性地优于基线模型，并在大多数任务上超过了HC [33][34] - 具体而言，在27B模型上，与HC相比，mHC在BBH和DROP任务上分别实现了2.1%和2.3%的性能增益 [34] - 表4数据显示，在多个基准测试（如BBH、DROP、GSM8K、MATH、MMLU等）上，mHC模型均取得了最佳或接近最佳的成绩 [33] 实验结果：规模扩展性 - 规模扩展实验评估了mHC在不同计算规模和训练Token数量下的有效性 [36] - 计算规模扩展曲线涵盖了从3B、9B到27B参数规模，轨迹表明即使在更高的计算预算下，mHC的性能优势依然稳健地得以保持，仅表现出轻微的衰减 [36] - Token扩展曲线展示了3B模型在训练过程中的性能轨迹，进一步验证了mHC在大规模场景下的有效性 [37] - 总体结论是mHC在大规模训练中表现出卓越的可扩展性，为基础模型的拓扑架构演进指明了方向 [8][37]