Seek .-DeepSeek发布最新论文，破解大模型训练拥堵难题

论文核心内容 - DeepSeek团队于2026年1月1日发布名为《mHC: Manifold-Constrained Hyper-Connections》的论文，提出一种名为“mHC”（流形约束超连接）的新框架 [1] - 该框架旨在改进此前大模型训练中的“HC（超连接）”范式，为大规模模型训练提供切实的性能改进 [1] - 论文以严谨的数学公式解释了mHC，其核心是给“多车道”增加一套智能调度系统（即“流形约束”），要求每个路口的车必须全部分流出去，每个车道接收的车数量固定，从而大大增加了模型训练的稳定性 [4][5] - 论文通过配图直观展示了mHC方法相对于HC的训练损失差距，其中淡蓝色线为HC，蓝色线为mHC，证明了mHC的稳定性优势 [6] 技术背景与演进 - 论文瞄准了大模型训练的“地基”——残差连接范式，以及为了升级该范式提出的HC范式，是一次基础理论创新 [4] - 残差连接是AI模型训练的“生命线”，它像一条单车道高速公路，让数据信号可以跳过某些层直接连接，解决了神经网络越大训练越困难的问题 [4] - 随着大模型参数突破千亿，这条“单车道”不够用，超连接范式把单车道扩建成多车道，显著提升了性能，但也导致了“堵车撞车”，使训练变得不稳定 [4] - 残差连接由何凯明等人于2015年在微软亚洲研究院提出，并因此获得CVPR 2016最佳论文奖，之后成为几乎所有主流大模型的“标配” [6][7] - 为解决残差连接信号通道不够“宽阔”的问题，字节跳动旗下团队于2024年提出了HC范式，但带来了稳定性问题 [8] - DeepSeek的mHC工作是在何凯明团队和字节跳动工作的基础上进行的进一步优化 [6][8] 公司战略与影响 - DeepSeek创始人梁文锋的名字出现在论文署名作者的最后一位 [1][4] - 尽管公司因2025年春节开源R1模型而全球爆火，但在梁文锋带领下，公司极其低调，团队潜心学术，未做过多商业化尝试，一心扑在基础模型理论研发上 [1] - 梁文锋近期入选了《自然》2025年影响科学发展十大人物 [1] - 在2026年第一天，当诸多大模型公司聚焦商业化和变现之际，DeepSeek此举进一步证实了其在基础模型领域的战略定力 [9] - 在论文文末，DeepSeek团队写道：“我们希望mHC能重振社区对宏观架构设计的兴趣。通过加深对拓扑结构如何影响优化和表示学习的理解，mHC将有助于解决当前的限制，并有可能为下一代基础架构的发展指明新途径。” [9]