DeepSeek,最新发布!
证券时报·2026-01-01 18:53

DeepSeek发布新论文mHC - 公司发布新论文,提出名为“流形约束超连接”的新架构mHC,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - 论文第一作者为Zhenda Xie、Yixuan Wei、Huanqi Cao,公司创始人梁文锋亦在作者名单中 [1] - 论文摘要指出,超连接等研究通过拓宽残差流宽度和多样化连接模式拓展了残差连接范式,但连接模式多样化削弱了恒等映射特性,导致训练不稳定、可扩展性受限及显著内存访问开销 [3] - 公司提出的mHC框架能将超连接的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率 [3] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销 [4] - 实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性 [3] - 论文结论指出,mHC能有效恢复恒等映射特性,相较于传统超连接,能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [6] - 作为超连接范式的广义拓展,mHC为未来研究开辟了多个重要方向,包括兼容针对特定学习目标设计的多种流形约束探索,以及对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法 [7] - 公司希望mHC能重新激发学界对宏观架构设计的关注,通过深化对拓扑结构如何影响优化与表征学习的理解,有助于突破现有局限,并可能为下一代基础架构的演进指明新路径 [7] DeepSeek近期模型发布与技术进展 - 2025年12月1日,公司同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [8] - DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景 [8] - 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [8] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [8] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力 [8] - 在主流推理基准测试上,DeepSeek-V3.2-Speciale的性能表现媲美Gemini-3.0-Pro [8] - 2025年9月29日,公司正式发布DeepSeek-V3.2-Exp模型,作为迈向新一代架构的中间步骤 [9] - V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention,针对长文本的训练和推理效率进行了探索性的优化和验证 [9] - 同时API大幅度降价,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上 [9] DeepSeek学术成就与国际认可 - 2025年9月17日,在最新一期的国际权威期刊Nature中,DeepSeek-R1推理模型研究论文登上了封面 [9] - 该论文由公司团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果 [9] - 这是中国大模型研究首次登上Nature封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可 [9] - Nature在其社论中评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。” [10]