刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
Seek .Seek .(US:SKLTY) 新浪财经·2026-01-01 18:34

公司技术发布 - DeepSeek在新年第一天发布了一篇新论文,提出了一种名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1][26][27] - 该技术通过将传统Transformer的单一残差流扩展为多流并行架构,并利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题 [1][28] - 论文的第一作者有三位,值得注意的是,DeepSeek创始人兼CEO梁文锋也在作者名单中 [3][30] 技术背景与问题 - 传统的残差连接凭借“恒等映射”保证了信号无损传输和训练稳定性,但其瓶颈在于信息通道的宽度受限于隐藏层维度 [3][30] - 以超连接为代表的研究通过扩展残差流宽度和多样化连接模式,拓展了残差连接范式,带来了显著的性能提升,但也带来了两个严重问题:破坏了恒等映射属性导致训练不稳定和可扩展性受限,并额外增加了显著的内存访问开销 [3][30] - 具体问题包括:连接矩阵自由学习导致信号数值“爆炸”或“消失”的数值不稳定性;以及通道变宽导致显存读写和通信成本成倍增加的“显存墙”问题 [6][33] 核心技术方案 - mHC是一个通用框架,它将HC的残差连接空间投影到一个特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率 [3][30] - 核心目的是在保留“加宽残差流”带来的性能提升的同时,解决其导致的训练不稳定和显存消耗过大的问题 [4][31] - 团队利用Sinkhorn-Knopp算法将残差连接矩阵投影到Birkhoff多胞形上,这使得信号传播变为特征的“凸组合”,从数学上严格保证了信号范数的稳定性 [7][31] - 选择双拟随机矩阵的原因在于其具有范数保持、复合封闭性和几何解释等有利于大规模训练的理论属性 [12][13][38][41] 效率优化措施 - 为了抵消加宽通道带来的开销,团队实施了内核融合、选择性重计算以及扩展的DualPipe通信计算重叠策略 [7][31] - 在n=4的扩展倍率下,仅增加了6.7%的训练时间开销 [7][34] - 具体的算子融合措施包括:重新调整RMSNorm顺序、采用混合精度策略、开发统一算子融合多次扫描和矩阵乘法、在单个算子中实现Sinkhorn-Knopp迭代及其自定义反向传播,以及将映射应用与残差合并融合以显著减少内存读写量 [15][43] - 重计算策略包括在前向传播后丢弃mHC算子的中间激活并在反向传播时即时重新计算,并通过推导最优重计算块大小以最小化总内存占用 [16][43][44] - 扩展了DualPipe调度算法以改善流水线并行阶段边界处的通信与计算重叠 [16][44] 实验设置与模型配置 - 研究团队通过语言模型预训练来验证所提方法的有效性,并对基线模型、HC以及mHC进行了对比分析 [16][44] - 采用了受DeepSeek-V3启发的MoE架构,训练了四种不同的模型变体,覆盖不同的评估体系 [16][44] - HC和mHC的扩展率n均设置为4,主要关注点是一个27B参数规模的模型 [17][44] - 此外,还训练了使用成比例数据的较小3B和9B模型来分析计算扩展性,以及一个在固定1T Token语料库上训练的独立3B模型来专门研究Token规模的影响 [17][44] - 详细的模型配置参数表显示了从3B到27B不同规模模型在词汇量、激活参数量、总参数量、层数、维度、训练步数、训练Token数等方面的具体数据 [18][45] 实验结果:稳定性与性能 - 在27B参数规模的模型上,mHC有效缓解了HC中观察到的训练不稳定问题,与基线模型相比,最终损失降低了0.021 [22][49] - 梯度范数分析证实了mHC的稳定性提升,其表现出明显优于HC的行为,保持了与基线模型相当的稳定轮廓 [22][49] - 在下游基准测试中,mHC带来了全面的性能提升,一致性地优于基线模型,并在大多数任务上超过了HC [23][24][50][51] - 具体而言,在27B模型上,mHC在BBH任务上达到51.0,相比HC的48.9提升了2.1%;在DROP任务上达到53.9,相比HC的51.6提升了2.3% [23][24][50][51] 实验结果:可扩展性 - 规模扩展实验涵盖了从3B、9B到27B参数规模的计算规模扩展曲线,轨迹表明即使在更高的计算预算下,mHC的性能优势依然稳健地得以保持,仅表现出轻微的衰减 [25][52] - Token扩展曲线展示了3B模型在训练过程中的动态变化,验证了mHC在大规模场景下的有效性 [25][52] - 研究结论指出,mHC为基础模型的拓扑架构演进指明了方向 [7][34]