DeepSeek,最新发布!
券商中国·2026-01-01 20:40

DeepSeek发布mHC架构新论文 - 公司发布新论文,提出名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - 论文第一作者为Zhenda Xie、Yixuan Wei、Huanqi Cao,公司创始人梁文锋亦在作者名单中 [1] - 论文摘要指出,超连接通过拓宽残差流宽度和多样化连接模式拓展了残差连接范式,但连接模式的多样化削弱了恒等映射特性,导致训练不稳定性、受限的可扩展性及显著的内存访问开销 [3] - 公司提出的mHC框架能将超连接的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合基础设施优化以确保运行效率 [3] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销 [4] - 论文结论指出,mHC能有效恢复恒等映射特性,相较于传统超连接,能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [6] - 论文展望认为,mHC为超连接范式的广义拓展,为未来研究开辟了多个重要方向,包括探索针对特定学习目标设计的多种流形约束,以及深化对拓扑结构如何影响优化与表征学习的理解 [6] DeepSeek近期模型发布与技术进展 - 2025年12月1日,公司同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [7] - DeepSeek-V3.2旨在平衡推理能力与输出长度,适合日常使用,在公开的推理类Benchmark测试中达到了GPT-5的水平,仅略低于Gemini-3.0-Pro,相比Kimi-K2-Thinking,其输出长度大幅降低,显著减少了计算开销与用户等待时间 [7] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [7] - 2025年9月29日,公司发布DeepSeek-V3.2-Exp模型,在V3.1-Terminus基础上引入了稀疏注意力机制,针对长文本的训练和推理效率进行了探索性优化和验证,同时API价格大幅降低,开发者调用成本降低50%以上 [8] - 2025年9月17日,公司关于DeepSeek-R1推理模型的研究论文登上国际权威期刊《自然》封面,该论文首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果,这是中国大模型研究首次登上《自然》封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究 [8] - 《自然》社论评价指出,几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破 [9]