DeepSeek新模型“MODEL1”曝光

新模型“MODEL1”的技术线索与进展 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处此前未公开的“MODEL1”大模型标识符 [2] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在代码中被并列提及,行业根据代码上下文认为其很可能代表一个不同于现有架构的新模型 [3] - 根据开发者分析,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等关键技术方面存在区别,表明新架构可能在内存优化和计算效率上进行了针对性设计 [5] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [5] 新模型的技术背景与市场传闻 - 近一个月内,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [6] - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型,此次项目曝光或许印证了该传闻 [6] - 行业对于“MODEL1”的具体定位有不同看法,有观点认为是V4模型或推理模型R2,也有开发者认为可能是V3系列的终极版 [3] DeepSeek的技术基础与历史产品 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是公司模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少内存占用,最大化利用GPU硬件 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础,随后在2025年1月发布了基于强化学习的推理模型R1,在解决数学问题、代码编程等复杂推理任务上表现卓越 [6] DeepSeek-R1的行业影响与中国AI开源生态 - 海外开源社区Hugging Face发布博客回顾“DeepSeek时刻”一周年,指出中国AI力量在过去一年重塑了全球开源生态 [7] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源不仅降低了推理技术、生产部署与心理三个门槛,更推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [9] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [9] - 尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [9]