Workflow
残差连接范式
icon
搜索文档
DeepSeek又放大招!梁文锋署名新论文引关注
21世纪经济报道· 2026-01-02 19:12
核心观点 - DeepSeek发布名为“流形约束超连接”(mHC)的新AI架构框架,旨在解决传统超连接在大规模训练中的不稳定性问题,提升可扩展性并降低算力与能源需求,其下一代旗舰系统R2预计在2月春节前后问世 [1][14][15] - 公司近期在技术研发、模型发布及学术认可方面动作频繁,展现出强劲的创新势头和行业影响力 [6][21] 技术突破:mHC新架构 - 新提出的mHC框架旨在解决传统超连接(HC)因连接模式多样化而导致的训练不稳定性、受限可扩展性及显著内存访问开销问题 [3][16][19] - mHC通过将HC的残差连接空间投影到特定流形上,以恢复恒等映射特性,并融合基础设施优化以确保运行效率 [3][19] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率?=4时,仅带来**6.7%**的额外时间开销 [3][19] - 实证表明,mHC能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [5][21] 近期重要动态与产品发布 - **2025年12月8日**:创始人梁文锋入选英国《自然》杂志2025年度十大科学人物,其公司发布的低成本R1推理模型被《自然》认为证明美国在AI领域并非遥遥领先 [7][22][23] - **2025年12月1日**:发布两个正式版模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,前者强化Agent能力并已更新至官方各平台,后者以临时API形式开放供社区评测 [8][24] - **2025年11月27日**:推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的训练框架,通过LLM验证器自动审查数学证明 [9][25] - **2025年10月20日**:开源DeepSeek-OCR模型,提出利用视觉模态压缩长文本上下文的新方法,可在单块A100-40G显卡上每天生成超过**20万页**训练数据 [10][26] - **2025年9月29日**:发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算消耗并提升推理效率,同时全面下调API价格,降幅在**50%到75%**不等 [11][12][27][28][29] - **2025年9月17日**:DeepSeek-R1推理模型研究论文登上《自然》期刊封面,该模型使用强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性 [13][30]
DeepSeek,最新发布!
券商中国· 2026-01-01 20:40
DeepSeek发布mHC架构新论文 - 公司发布新论文,提出名为“流形约束超连接”的新架构,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - 论文第一作者为Zhenda Xie、Yixuan Wei、Huanqi Cao,公司创始人梁文锋亦在作者名单中 [1] - 论文摘要指出,超连接通过拓宽残差流宽度和多样化连接模式拓展了残差连接范式,但连接模式的多样化削弱了恒等映射特性,导致训练不稳定性、受限的可扩展性及显著的内存访问开销 [3] - 公司提出的mHC框架能将超连接的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合基础设施优化以确保运行效率 [3] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销 [4] - 论文结论指出,mHC能有效恢复恒等映射特性,相较于传统超连接,能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [6] - 论文展望认为,mHC为超连接范式的广义拓展,为未来研究开辟了多个重要方向,包括探索针对特定学习目标设计的多种流形约束,以及深化对拓扑结构如何影响优化与表征学习的理解 [6] DeepSeek近期模型发布与技术进展 - 2025年12月1日,公司同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [7] - DeepSeek-V3.2旨在平衡推理能力与输出长度,适合日常使用,在公开的推理类Benchmark测试中达到了GPT-5的水平,仅略低于Gemini-3.0-Pro,相比Kimi-K2-Thinking,其输出长度大幅降低,显著减少了计算开销与用户等待时间 [7] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,结合了DeepSeek-Math-V2的定理证明能力,具备出色的指令跟随、严谨的数学证明与逻辑验证能力,在主流推理基准测试上的性能表现媲美Gemini-3.0-Pro [7] - 2025年9月29日,公司发布DeepSeek-V3.2-Exp模型,在V3.1-Terminus基础上引入了稀疏注意力机制,针对长文本的训练和推理效率进行了探索性优化和验证,同时API价格大幅降低,开发者调用成本降低50%以上 [8] - 2025年9月17日,公司关于DeepSeek-R1推理模型的研究论文登上国际权威期刊《自然》封面,该论文首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果,这是中国大模型研究首次登上《自然》封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究 [8] - 《自然》社论评价指出,几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破 [9]
DeepSeek,最新发布!
证券时报· 2026-01-01 18:53
DeepSeek发布新论文mHC - 公司发布新论文,提出名为“流形约束超连接”的新架构mHC,旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益 [1] - 论文第一作者为Zhenda Xie、Yixuan Wei、Huanqi Cao,公司创始人梁文锋亦在作者名单中 [1] - 论文摘要指出,超连接等研究通过拓宽残差流宽度和多样化连接模式拓展了残差连接范式,但连接模式多样化削弱了恒等映射特性,导致训练不稳定、可扩展性受限及显著内存访问开销 [3] - 公司提出的mHC框架能将超连接的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率 [3] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率=4时,仅带来6.7%的额外时间开销 [4] - 实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性 [3] - 论文结论指出,mHC能有效恢复恒等映射特性,相较于传统超连接,能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [6] - 作为超连接范式的广义拓展,mHC为未来研究开辟了多个重要方向,包括兼容针对特定学习目标设计的多种流形约束探索,以及对差异化几何约束的深入研究可能催生能更好权衡可塑性—稳定性关系的新方法 [7] - 公司希望mHC能重新激发学界对宏观架构设计的关注,通过深化对拓扑结构如何影响优化与表征学习的理解,有助于突破现有局限,并可能为下一代基础架构的演进指明新路径 [7] DeepSeek近期模型发布与技术进展 - 2025年12月1日,公司同时发布两个正式版模型:DeepSeek-V3.2和DeepSeek-V3.2-Speciale [8] - DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用Agent任务场景 [8] - 在公开的推理类Benchmark测试中,DeepSeek-V3.2达到了GPT-5的水平,仅略低于Gemini-3.0-Pro [8] - 相比Kimi-K2-Thinking,V3.2的输出长度大幅降低,显著减少了计算开销与用户等待时间 [8] - DeepSeek-V3.2-Speciale是V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力 [8] - 在主流推理基准测试上,DeepSeek-V3.2-Speciale的性能表现媲美Gemini-3.0-Pro [8] - 2025年9月29日,公司正式发布DeepSeek-V3.2-Exp模型,作为迈向新一代架构的中间步骤 [9] - V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention,针对长文本的训练和推理效率进行了探索性的优化和验证 [9] - 同时API大幅度降价,在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上 [9] DeepSeek学术成就与国际认可 - 2025年9月17日,在最新一期的国际权威期刊Nature中,DeepSeek-R1推理模型研究论文登上了封面 [9] - 该论文由公司团队共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发大模型推理能力的重要研究成果 [9] - 这是中国大模型研究首次登上Nature封面,也是全球首个经过完整同行评审并发表于权威期刊的主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认可 [9] - Nature在其社论中评价道:“几乎所有主流的大模型都还没有经过独立同行评审,这一空白终于被DeepSeek打破。” [10]