刚刚,梁文锋署名,DeepSeek元旦新论文要开启架构新篇章
Seek .Seek .(US:SKLTY) 新浪财经·2026-01-01 18:34

来源:机器之心 新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。 该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 。 简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用 Sinkhorn-Knopp 算法将连接矩阵约束在双拟随机矩阵流形上,成功解决了超连接(HC)在大规模训练 中因破坏恒等映射属性而导致的数值不稳定和信号爆炸问题。 从根本上破坏了残差连接固有的恒等映射属性,导致了严重的训练不稳定性和受限的可扩展性,并额外 增加了显著的内存访问开销。 为了解决这些挑战,DeepSeek 的研究团队提出了Manifold-Constrained Hyper-Connections (mHC,流形 约束超连接)。 这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意 的是,DeepSeek 创始人 & CEO 梁文锋也在作者名单中。 传统的残差连接(即 Transformer 中的 x + F ...