mHC
搜索文档
DeepSeek上新mHC,R2还远吗?
钛媒体APP· 2026-01-04 14:05
文章核心观点 - DeepSeek于2026年初发布名为mHC的新型神经网络架构优化方案,该方案旨在解决其前身Hyper-Connections在大模型训练中的稳定性与可扩展性问题,通过引入“流形约束”实现更稳定、快速且经济的训练,可能引发AI底层架构的连锁反应并对AI芯片生态产生影响 [1][5][9] mHC架构的技术原理与创新 - mHC架构建立在字节豆包团队2024年11月发布的Hyper-Connections基础上,核心创新在于引入Manifold-Constrained,通过Sinkhorn-Knopp算法将残差映射矩阵投影到“双随机矩阵”构成的Birkhoff多面体上,为信号传播加上稳定器,确保信号均值不变、总量守恒 [5] - 该方案旨在解决HC在大模型训练中因残差连接通道间交互导致的信号爆炸或消失、训练不稳定、可扩展性降低及成本升高的问题 [5] mHC架构的性能表现 - 在270亿参数级别的训练演示中,HC在训练至约1.2万步时信号放大倍数暴增至3000倍导致训练崩溃,而mHC在同等训练下信号放大倍数仅为1.6倍,全程平稳运行 [6] - 相较于传统架构,mHC训练时损失显著下降,在BBH数据集评测的困难任务推理能力和DROP数据集评测的阅读理解表现均提升2%以上 [6] - 在残差通道扩展4倍后,mHC的额外训练时间开销仅为6.7%,体现了高性价比和效率优先的特点 [8] - 实验证明mHC在大规模训练中表现稳定、性能优越且具备良好可扩展性 [8] 对AI行业与架构发展的潜在影响 - mHC被视为一种底层创新,可能引发AI领域的连锁反应,竞争对手可能着手开发类似架构 [9] - 在DeepSeek发布论文次日,普林斯顿和UCLA的研究团队即提出了名为Deep Delta Learning的架构,同样旨在更新ResNet基本架构 [9] - 接连涌现的新研究提升了业界对2026年大模型架构产生重大范式更新和迭代的期待 [10] - 相关研究成果预计会在DeepSeek后续的新模型(如备受期待的R2或通用模型V4)中有所体现 [10] 对AI芯片生态的影响 - mHC架构依赖FP32高精度计算格式,对内存带宽和高速互联带宽提出更高要求,尤需高端芯片支持 [11] - 目前该架构主要针对英伟达超节点链路设计,更适配英伟达生态,对国产芯片兼容性较弱 [11] - 若该架构规模化铺开,英伟达的生态短期内会得到优势强化,而国产芯片需着力强化编译层适配 [11] - 长期来看,供应mHC架构的AI芯片需要提升存储带宽并转向更精细化设计 [11] - 2025年英伟达等美国AI芯片淡出中国市场后,国产芯片替代加速,华为昇腾、摩尔线程等已宣布适配DeepSeek大模型,但其精度格式仍与英伟达有差距 [12] - 在国产芯片生态突围中,与DeepSeek等领先大模型的深度耦合被认为至关重要 [12] 公司背景与研究实力 - 论文作者署名多达19人,核心作者为解振达、韦毅轩、曹焕奇,前两者为清华大学高等研究院博士,DeepSeek创始人兼CEO梁文锋名字列于最后 [8] - 自2024年1月的LLM论文至今,DeepSeek在HuggingFace上共发布23篇重要论文,其中11篇有梁文锋署名,包括MoE、Coder、R1、V3等节点性重要成果 [8]
DeepSeek改造何恺明残差连接!梁文峰亲自署名,十年首次重大升级
量子位· 2026-01-01 18:32
文章核心观点 - DeepSeek团队发布新论文,对深度学习基础组件“残差连接”进行了重要升级,提出了名为“双随机矩阵约束的混合连接”的新方法,旨在解决现有扩展方案存在的训练不稳定问题,并在保持稳定性的同时提升模型性能 [1][2][17] 技术背景与问题 - 残差连接是自2016年ResNet以来深度学习架构的基石,其核心是“恒等映射”属性,允许信号无损地从浅层传递到深层,这一设计已成为Transformer及GPT、LLaMA等大语言模型的标准配置 [7][8][9][10] - 近期出现的超连接试图通过将残差流宽度从C维扩展到n×C维并引入可学习映射矩阵来提升性能,其中负责残差流内部信息交换的Hres矩阵贡献了最显著的性能提升 [11][12] - 但超连接在扩展到多层时,复合映射不再保持恒等性质,导致训练不稳定,例如在27B模型训练约12000步时出现突发损失激增和梯度剧烈波动 [14] - 研究团队计算发现,在超连接中,复合映射对信号的放大倍数峰值可达3000倍,这意味着信号在层间传播时可能被过度放大或衰减至近乎消失,这是不稳定的根源 [16] 核心解决方案:双随机矩阵约束 - DeepSeek论文的核心思路是将残差映射矩阵约束到由双随机矩阵构成的Birkhoff多面体流形上,该矩阵要求每行每列之和为1且所有元素非负 [17][18] - 这种约束带来三个关键理论性质:1) 范数保持,谱范数不超过1,防止信号放大和梯度爆炸;2) 组合封闭,多个双随机矩阵相乘结果仍是双随机矩阵,确保深层网络跨层复合映射的稳定性;3) 几何解释,映射相当于对特征做凸组合,是一种稳健的特征融合机制 [18][19] - 团队采用Sinkhorn-Knopp算法将任意矩阵投影到该流形上,实验数据显示,在27B模型中,新方法的复合映射信号增益最大值约为1.6,与超连接的3000形成了三个数量级的差距,从根本上解决了稳定性问题 [21] 工程优化与性能 - 扩展残差流宽度会带来额外内存开销,例如当扩展率n=4时,超连接的内存读写元素数量显著高于标准残差连接 [24] - 团队为此进行了一系列基础设施优化:使用TileLang框架实现融合内核以减少内存访问次数;为Sinkhorn-Knopp算法设计专门的前向和反向内核,在芯片上重算中间结果以避免存储开销;扩展DualPipe调度策略,通过将MLP层内核置于高优先级计算流来实现计算与通信重叠 [25][26][27] - 论文还给出了重计算策略的优化公式,并将重计算边界与流水线阶段边界对齐,以优化训练效率 [28][29] 实验验证结果 - 实验在3B、9B和27B三个规模的混合专家模型上进行,扩展率n设为4 [30] - 在27B参数的混合专家模型上,新方法展现出稳定的训练曲线,最终损失相比基线降低了0.021,同时保持了与基线相当的梯度范数稳定性 [31] - 在下游任务评测中,新方法在BBH推理任务上比超连接提升2.1%,在DROP阅读理解任务上提升2.3%,在大多数任务上不仅超过基线,也超过了超连接 [31] - 具体数据:在27B模型上,新方法在BBH得分为51.0,超连接为48.9,基线为43.8;在DROP上,新方法为53.9,超连接为51.6,基线为47.0;新方法在其他多个基准测试中也普遍优于或持平于超连接 [32] - 计算缩放曲线显示,新方法的性能优势在更高计算预算下仅出现轻微衰减,且对3B模型的token缩放曲线分析表明其优势贯穿整个训练过程 [32] - 大规模训练实验证实,当扩展率n=4时,新方法仅引入6.7%的额外时间开销 [35]