核心观点 - DeepSeek发布名为“流形约束超连接”(mHC)的新AI架构框架,旨在解决传统超连接在大规模训练中的不稳定性问题,提升可扩展性并降低算力与能源需求,其下一代旗舰系统R2预计在2月春节前后问世 [1][14][15] - 公司近期在技术研发、模型发布及学术认可方面动作频繁,展现出强劲的创新势头和行业影响力 [6][21] 技术突破:mHC新架构 - 新提出的mHC框架旨在解决传统超连接(HC)因连接模式多样化而导致的训练不稳定性、受限可扩展性及显著内存访问开销问题 [3][16][19] - mHC通过将HC的残差连接空间投影到特定流形上,以恢复恒等映射特性,并融合基础设施优化以确保运行效率 [3][19] - 内部大规模训练结果显示,mHC可有效支持规模化训练,当扩展率?=4时,仅带来6.7%的额外时间开销 [3][19] - 实证表明,mHC能以更优的可扩展性实现稳定的大规模训练,并通过高效的基础设施级优化以可忽略的计算开销实现改进 [5][21] 近期重要动态与产品发布 - 2025年12月8日:创始人梁文锋入选英国《自然》杂志2025年度十大科学人物,其公司发布的低成本R1推理模型被《自然》认为证明美国在AI领域并非遥遥领先 [7][22][23] - 2025年12月1日:发布两个正式版模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale,前者强化Agent能力并已更新至官方各平台,后者以临时API形式开放供社区评测 [8][24] - 2025年11月27日:推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的训练框架,通过LLM验证器自动审查数学证明 [9][25] - 2025年10月20日:开源DeepSeek-OCR模型,提出利用视觉模态压缩长文本上下文的新方法,可在单块A100-40G显卡上每天生成超过20万页训练数据 [10][26] - 2025年9月29日:发布DeepSeek-V3.2-Exp模型,实验性引入DeepSeek Sparse Attention稀疏注意力机制,显著降低计算消耗并提升推理效率,同时全面下调API价格,降幅在**50%到75%**不等 [11][12][27][28][29] - 2025年9月17日:DeepSeek-R1推理模型研究论文登上《自然》期刊封面,该模型使用强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性 [13][30]
DeepSeek又放大招!梁文锋署名新论文引关注