DeepSeek新年炸场!梁文锋署名论文发布
第一财经·2026-01-01 22:49

DeepSeek发布mHC新网络架构论文 - 公司在新论文中提出名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题[3] - 该研究或将为下一代基础架构的演进指明新方向[3] mHC架构的技术原理与优势 - 传统超连接(HC)架构通过拓宽神经网络的“信息传输通道”提升模型性能,但导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题[7] - mHC架构为超连接的“信息通道”增加“交通规则”,在保留性能优势的同时,恢复了信息原样传递的特性,使模型训练更稳定、更容易做大[7] - 通俗比喻:mHC相当于给加宽的水管(超连接)增加了“智能调节阀”,能确保信息水流的稳定,运行时更省资源[7] 研究的行业意义与影响 - mHC或能让企业在训练更大规模基础模型时,减少硬件投入、缩短训练周期,降低大模型研发门槛,使算力有限的中小AI企业也能尝试开发更复杂的大模型[8] - 训练稳定性和可扩展性的提升,能让大模型在更复杂的场景落地,例如需要超大规模参数的多模态模型、工业级的智能决策系统[8] - 有行业人士评价认为,此次创新针对Transformer最基础的问题,是底层创新,结合此前积累,预测公司有望在V4版本中做出重大更新[8] 公司的近期动态 - 自2025年初引发广泛关注以来,公司虽未正式推出R2或V4等重大版本,但在模型迭代与开源上持续发力[9] - 仅12月就同步推出了DeepSeek-V3.2与V3.2-Special,11月底开源了数学推理模型DeepSeek-Math-V2,该模型成为目前首个达到国际奥数金牌水平并开放使用的数学模型[9]