论文核心内容 - DeepSeek团队于2026年1月1日发布名为《mHC: Manifold-Constrained Hyper-Connections》的论文,提出一种名为“mHC”(流形约束超连接)的新框架 [1] - 该框架旨在改进此前大模型训练中的“HC(超连接)”范式,为大规模模型训练提供切实的性能改进 [1] - 论文以严谨的数学公式解释了mHC,其核心是给“多车道”增加一套智能调度系统(即“流形约束”),要求每个路口的车必须全部分流出去,每个车道接收的车数量固定,从而大大增加了模型训练的稳定性 [4][5] - 论文通过配图直观展示了mHC方法相对于HC的训练损失差距,其中淡蓝色线为HC,蓝色线为mHC,证明了mHC的稳定性优势 [6] 技术背景与演进 - 论文瞄准了大模型训练的“地基”——残差连接范式,以及为了升级该范式提出的HC范式,是一次基础理论创新 [4] - 残差连接是AI模型训练的“生命线”,它像一条单车道高速公路,让数据信号可以跳过某些层直接连接,解决了神经网络越大训练越困难的问题 [4] - 随着大模型参数突破千亿,这条“单车道”不够用,超连接范式把单车道扩建成多车道,显著提升了性能,但也导致了“堵车撞车”,使训练变得不稳定 [4] - 残差连接由何凯明等人于2015年在微软亚洲研究院提出,并因此获得CVPR 2016最佳论文奖,之后成为几乎所有主流大模型的“标配” [6][7] - 为解决残差连接信号通道不够“宽阔”的问题,字节跳动旗下团队于2024年提出了HC范式,但带来了稳定性问题 [8] - DeepSeek的mHC工作是在何凯明团队和字节跳动工作的基础上进行的进一步优化 [6][8] 公司战略与影响 - DeepSeek创始人梁文锋的名字出现在论文署名作者的最后一位 [1][4] - 尽管公司因2025年春节开源R1模型而全球爆火,但在梁文锋带领下,公司极其低调,团队潜心学术,未做过多商业化尝试,一心扑在基础模型理论研发上 [1] - 梁文锋近期入选了《自然》2025年影响科学发展十大人物 [1] - 在2026年第一天,当诸多大模型公司聚焦商业化和变现之际,DeepSeek此举进一步证实了其在基础模型领域的战略定力 [9] - 在论文文末,DeepSeek团队写道:“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解,mHC将有助于解决当前的限制,并有可能为下一代基础架构的发展指明新途径。” [9]
DeepSeek发布最新论文,破解大模型训练拥堵难题