文章核心观点 - DeepSeek发布论文《mHC: Manifold-Constrained Hyper-Connections》,提出对Transformer架构最基础的残差连接组件进行重要改进,这是该领域十年来的一次根本性创新 [1] - mHC旨在解决其前身技术Hyper-Connections带来的训练不稳定问题,通过引入数学约束(双随机矩阵)为连接权重加上“数学护栏”,在保持性能提升的同时确保训练稳定 [5][10] - 这项创新不仅是算法突破,更展示了DeepSeek将复杂数学方案高效落地到大规模训练系统中的顶尖工程能力,是其核心竞争优势的体现 [15][16] 技术演进背景 - 残差连接由何恺明等人于2015年提出,其核心公式y = x + F(x)解决了深度神经网络的梯度消失问题,使训练成百上千层的网络成为可能,并因此获得CVPR 2016最佳论文奖 [3] - 自2017年Transformer问世以来,残差连接成为几乎所有主流大模型(如GPT、Claude、Llama、DeepSeek)的架构标配 [3] - 2024年9月,字节跳动提出Hyper-Connections,将单一残差流扩展为多流并行架构,实验显示能显著提升模型性能,在MoE模型上实现1.8倍的收敛加速,但带来了训练不稳定的新问题 [5] - 从ResNet到Hyper-Connections再到mHC,这是一场跨越十年的技术接力演进 [5] mHC的技术原理与创新 - mHC的核心创新是将连接权重矩阵约束在“双随机矩阵”的数学空间内,该矩阵所有元素非负,且每行、每列元素之和均为1 [10] - 此约束的数学效果是使输出信号成为输入各分量的“凸组合”(加权平均),确保结果不会超过输入最大值,从而防止信号在多层传播中被无限放大,保证了能量守恒 [10] - 双随机矩阵的谱范数恒小于等于1,这意味着对应的线性变换是“非扩张的”,无论前向还是反向传播,信号都不会被无限放大 [10] - 具体实现采用Sinkhorn-Knopp算法,通过交替进行行归一化和列归一化迭代生成双随机矩阵,论文表明仅需3次迭代即可达到足够精度,且整个过程可微分,支持端到端训练 [11] - 该方案未引入新超参数,也未改变模型表达能力,只是为权重矩阵增加了可证明的安全边界 [12] 实验效果与影响范围 - 实验结果显示,在7B规模的Dense模型训练中,采用mHC的模型全程未出现任何Loss尖峰 [12] - 在MoE模型上,mHC实现了与Hyper-Connections相近的约1.8倍收敛速度提升 [12] - 这是一个“富人的问题”,训练不稳定问题仅在训练超大规模模型(例如270亿参数以上)时才会显现,对DeepSeek等前沿实验室是必须解决的工程难题,普通研究者可能不会遇到 [10] 工程实现与公司能力 - 为了让理论上完美的数学方案落地,DeepSeek未调用现成库,而是直接手写底层CUDA内核代码,利用算子融合技术将复杂计算塞进毫秒级的训练循环中 [16] - 公司采用了激进的“选择性重计算”策略,并在多卡训练中开辟专用计算流来掩盖通信延迟 [16] - 这种将算法灵感稳定、高效地落地到整个算力体系(包括重写内核、内存管理、节点通信)的工程能力,被认为是前沿实验室的标志,也是DeepSeek的最大优势 [16] - 业内评价认为,这篇论文表面是架构论文,实际上是DeepSeek“秀肌肉”的硬核工程论文 [15] 战略意义与发展脉络 - mHC符合DeepSeek近两年的发展主线:在有限资源下,通过架构创新最大化效率,用数学约束解决工程问题,用架构创新突破资源瓶颈 [14] - 根据DeepSeek研究员与Kimi研究员的交流,hyper-connections(mHC的技术根基)被认为是2025年最值得关注的两大架构创新之一,这意味着mHC可能只是公司在这条技术路线上的第一步 [14] - 如果mHC被整合进下一代模型,结合此前的一系列技术和工程创新,可能会催生一个在效率、性能和稳定性上全面升级的新架构 [15] - DeepSeek创始人梁文锋出现在论文的19位作者名单中,显示了公司高层对该技术创新的直接参与和重视 [1]
梁文锋DeepSeek新论文!接棒何恺明和字节,又稳了稳AI的“地基”