DeepSeek新模型“MODEL1”曝光

新模型“MODEL1”的技术进展与行业推测 - 在DeepSeek-R1发布一周年之际，其开源社区GitHub上更新了一系列FlashMLA代码，项目文件中数十处提到了此前未公开的“MODEL1”大模型标识符 [3] - “MODEL1”标识符与已知的现有模型“V32”（即DeepSeek-V3.2）被并列提及，根据代码上下文，“MODEL1”很可能代表一个不同于现有架构的新模型 [4] - 行业对新模型的具体身份有不同看法，可能是V4模型、推理模型R2，或是V3系列的终极版 [4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具，是实现模型低成本、高性能的关键技术之一 [4] - 开发者分析指出，“MODEL1”与“V32”在键值（KV）缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等关键技术方面存在区别，表明新架构可能在内存优化和计算效率上进行了针对性设计 [4] - 结合模型文件结构来看，“MODEL1”很可能已接近训练完成或推理部署阶段，正等待最终的权重冻结和测试验证，意味着新模型上线时间越来越近 [4] 公司近期技术动态与市场传闻 - 此前有报道称，DeepSeek将于2月发布新一代旗舰模型DeepSeek V4，且内部初步测试表明，V4在编程能力上超过了市场上的其他顶级模型 [5] - 近一个月里，公司团队陆续发布了两篇技术论文，介绍了名为“优化残差连接（mHC）”的新训练方法，以及一种受生物学启发的“AI记忆模块（Engram）”，业内猜测新模型可能会整合这些最新研究成果 [6] - 公司在2024年12月推出旗舰模型V3，凭借高效的MoE架构确立了强大的综合性能基础，随后在2025年1月发布了推理模型R1，基于强化学习，在解决数学问题、代码编程等复杂推理任务上表现卓越 [6] 行业影响与全球开源生态格局 - 海外开源社区Hugging Face发布博客《“DeepSeek时刻”一周年》，回顾了中国AI力量在过去一年如何重塑全球开源生态 [6] - 文章指出，DeepSeek-R1是Hugging Face上获赞最多的模型，其开源降低了推理技术、生产部署与心理三个门槛，并推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [8] - 过去一年，百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入，中国模型在Hugging Face上的下载量已超越美国 [8] - 尽管西方寻求替代方案，但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础，中国AI已深度嵌入全球供应链 [8]