超连接(HC)
搜索文档
DeepSeek新年炸场!梁文锋署名论文发布
第一财经· 2026-01-01 22:49
DeepSeek发布mHC新网络架构论文 - 公司在新论文中提出名为mHC(流形约束超连接)的新网络架构,旨在解决传统架构在大规模模型训练中的不稳定性问题[3] - 该研究或将为下一代基础架构的演进指明新方向[3] mHC架构的技术原理与优势 - 传统超连接(HC)架构通过拓宽神经网络的“信息传输通道”提升模型性能,但导致了大规模训练中的不稳定性、可扩展性受限及内存访问开销大的问题[7] - mHC架构为超连接的“信息通道”增加“交通规则”,在保留性能优势的同时,恢复了信息原样传递的特性,使模型训练更稳定、更容易做大[7] - 通俗比喻:mHC相当于给加宽的水管(超连接)增加了“智能调节阀”,能确保信息水流的稳定,运行时更省资源[7] 研究的行业意义与影响 - mHC或能让企业在训练更大规模基础模型时,减少硬件投入、缩短训练周期,降低大模型研发门槛,使算力有限的中小AI企业也能尝试开发更复杂的大模型[8] - 训练稳定性和可扩展性的提升,能让大模型在更复杂的场景落地,例如需要超大规模参数的多模态模型、工业级的智能决策系统[8] - 有行业人士评价认为,此次创新针对Transformer最基础的问题,是底层创新,结合此前积累,预测公司有望在V4版本中做出重大更新[8] 公司的近期动态 - 自2025年初引发广泛关注以来,公司虽未正式推出R2或V4等重大版本,但在模型迭代与开源上持续发力[9] - 仅12月就同步推出了DeepSeek-V3.2与V3.2-Special,11月底开源了数学推理模型DeepSeek-Math-V2,该模型成为目前首个达到国际奥数金牌水平并开放使用的数学模型[9]
DeepSeek,最新发布!
券商中国· 2026-01-01 20:40
DeepSeek发布mHC架构新论文 - 公司发布新论文,提出名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - 论文第一作者为Zhenda Xie、Yixuan Wei、Huanqi Cao,公司创始人梁文锋亦在作者名单中 [1] - 论文摘要指出,超连接通过拓宽残差流宽度和多样化连接模式拓展了残差连接范式,但连接模式的多样化削弱了恒等映射特性,导致训练不稳定性、受限的可扩展性及显著的内存访问开销 [3] - 公司提出的mHC框架能将超连接的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合基础设施优化以确保运行效率 [3] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销 [4] - 论文结论指出,mHC能有效恢复恒等映射特性,相较于传统超连接,能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [6] - 论文展望认为,mHC为超连接范式的广义拓展,为未来研究开辟了多个重要方向,包括探索针对特定学习目标设计的多种流形约束,以及深化对拓扑结构如何影响优化与表征学习的理解 [6] DeepSeek近期模型发布与技术进展 - 2025年12月1日,公司同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [7] - DeepSeek-V3.2旨在平衡推理能力与输出长度,适合日常使用,在公开的推理类Benchmark测试中达到了GPT-5的水平,仅略低于Gemini-3.0-Pro,相比Kimi-K2-Thinking,其输出长度大幅降低,显著减少了计算开销与用户等待时间 [7] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [7] - 2025年9月29日,公司发布DeepSeek-V3.2-Exp模型,在V3.1-Terminus基础上引入了稀疏注意力机制,针对长文本的训练和推理效率进行了探索性优化和验证,同时API价格大幅降低,开发者调用成本降低50%以上 [8] - 2025年9月17日,公司关于DeepSeek-R1推理模型的研究论文登上国际权威期刊《自然》封面,该论文首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果,这是中国大模型研究首次登上《自然》封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究 [8] - 《自然》社论评价指出,几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破 [9]
DeepSeek 开年发布新论文:提出全新 mHC 架构,梁文锋现身作者名单
新浪财经· 2026-01-01 20:24
论文核心观点 - DeepSeek公司提出名为“流形约束超连接”的新神经网络架构mHC 旨在解决传统超连接在大规模模型训练中的不稳定性问题 同时保持其显著的性能增益 [1][6] 研究背景与问题 - 传统超连接通过扩展残差流宽度和多样化连接模式扩展了残差连接范式 并带来了显著的性能提升 [6] - 但这种多样化损害了残差连接固有的恒等映射属性 导致严重的训练不稳定性和受限的可扩展性 并产生显著的内存访问开销 [6] 技术方案与创新 - mHC是一个通用框架 可将超连接的残差连接空间投影到特定的流形上 以恢复恒等映射属性 [6] - 该方案结合了严格的基础设施优化以确保效率 [6] 实验效果与意义 - 经验实验表明 mHC对于大规模训练有效 可提供切实的性能改进和卓越的可扩展性 [6] - 预计mHC作为超连接的灵活且实用的扩展 将有助于更深入理解拓扑架构设计 并为大模型的演进提出有希望的方向 [6] 作者与发布信息 - 论文第一作者包括Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao [1] - DeepSeek创始人兼CEO梁文锋也在作者名单之列 [1] - 论文已发布于Hugging Face和Arxiv平台 [6]