Hyper-Connections
搜索文档
梁文锋署名,DeepSeek 论文引爆 AI 圈:mHC 架构横空出世!网友:这工程难度是地狱级
AI前线· 2026-01-02 14:00
文章核心观点 - DeepSeek公司在2026年初发布了一篇重要学术论文,提出了一种名为mHC(流形约束超连接)的新型神经网络架构[2] - 该架构旨在解决现有超连接架构在大规模模型训练中存在的数值不稳定和信号爆炸等瓶颈,同时保留其性能提升优势,成为新一代基础模型设计的潜在方向[2] 架构创新解决的问题 - 传统Transformer的残差连接因维持恒等映射而保证信号稳定传递,是深度学习模型顺利训练的核心机制之一[6] - 近年来提出的超连接拓宽了残差流通道并增强了表达能力,但其无约束的连接矩阵破坏了恒等映射特性,在大规模训练中经常导致信号爆炸或梯度异常,影响训练稳定性和可扩展性[6] - mHC通过引入几何约束,将传统超连接的残差映射空间投影到特定的流形上,将连接矩阵限制在双随机矩阵流形内[6] - 这一投影不仅恢复了恒等映射性质,还在数学上保证了信号范数的稳定性,有效避免了信号放大和梯度爆炸等数值问题[6] - 核心技术实现上,研究团队采用了Sinkhorn-Knopp算法进行投影约束,并结合内核融合、重计算和通信重叠等基础设施层面的优化手段,控制系统开销[6] - 超连接将单一残差流扩展为多条并行残差流,并通过一个可学习的连接矩阵进行线性组合,但完全自由学习的连接矩阵不再保证包含恒等映射成分,其谱性质也无法受到约束,在大规模训练中极易导致信号放大、梯度爆炸或数值不稳定[7] - mHC的核心思路是通过引入几何约束,重新为复杂连接结构建立稳定性边界,将跨流连接矩阵的可行空间限制在双随机矩阵所构成的流形上[8] - 双随机矩阵的关键性质在于:单位矩阵本身就是双随机矩阵,因此传统残差结构仍然是该空间中的一个特例;同时,双随机矩阵的最大特征值为1,意味着其不会系统性放大信号范数[10] - 在实现层面,mHC采用工程上成熟且可微的Sinkhorn-Knopp算法,对无约束的连接矩阵进行投影[11] - 训练过程中,模型首先学习一个普通实值矩阵,然后在每次前向传播前,通过有限步Sinkhorn归一化,将其投影为近似双随机矩阵[12] - 论文披露的实验结果显示,在3B、9B乃至27B参数规模下,mHC不仅避免了传统超连接中常见的训练不收敛问题,还在多个任务上维持甚至提升了性能表现[12] - 从宏观角度看,mHC的意义在于为复杂残差拓扑的进一步探索提供了一种可扩展的理论与工程框架,为未来更复杂的多流、多路径网络设计打开了空间[12] 行业反响与意义 - 论文发布后,在人工智能研究者与产业从业者中引发了广泛讨论[14] - 有观点指出,DeepSeek近年来持续通过公开论文释放技术信号,其研究方向往往与后续模型迭代节奏密切相关[14] - 有行业观察人士认为,这反映出中国人工智能公司之间日益开放、协作的文化,这些公司公开发表的研究成果所占比例越来越高[15] - 在Reddit平台,有评论者指出,如果DeepSeek提出的方法能够在保持稳定性的同时实现良好扩展,其意义不容小觑[17] - 有评论者提到,为了保证效率,研究团队在CUDA内核层面进行了算子融合,并对训练流水线进行了专门优化,这类工作对工程能力提出了较高要求[18] - 论文由19名研究人员组成的团队完成,他们在拥有30亿、90亿和270亿参数的模型上测试了该方法,发现其扩展性良好,且没有增加显著的计算负担[15]