大模型底层架构工业化落地
搜索文档
DeepSeek新年炸场!梁文锋署名论文发布
第一财经· 2026-01-01 22:49
2026.01. 01 本文字数:1149,阅读时长大约2分钟 作者 | 第一财经 刘晓洁 1月1日消息,DeepSeek赶在新年前发送了"贺礼",在新论文中提出了名为mHC(流形约束超连 接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题,这一研究或将为下一代 基础架构的演进指明新方向。 新 论 文 名 为 《 mHC :Manifold-Constrained Hyper-Connections 》 ( 《 mHC : 流 形 约 束 超 连 接 》),DeepSeek创始人兼CEO梁文锋出现在了合著名单之中,而解振达(Zhenda Xie)、韦毅轩 (Yixuan Wei)、曹焕琪(Huanqi Cao)则是核心贡献者。 近年来,以超连接(HC)为代表的研究拓展了过去十年确立的通用残差连接范式(深度神经网络的 经典连接范式),靠拓宽神经网络的"信息传输通道"、增加通道间的连接,让模型性能变好。但这种 多样化也导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题。 因此,DeepSeek这篇论文针对超连接架构这些问题,提出兼顾性能与效率的改进框架,即mHC 架 构,这类似于给超 ...