长序列专家
搜索文档
DeepSeek新模型“Model 1”曝光,疑似“高效推理模型”
新浪财经· 2026-01-21 14:58
公司动态与产品发布 - DeepSeek于1月21日在官方GitHub仓库更新了FlashMLA代码,其中出现了一个名为“Model 1”的新模型,引起了广泛关注 [1][2] - 在代码仓库中,“Model 1”拥有与现有主力模型DeepSeek-V3.2并驾齐驱的文件,这引发了市场猜测,认为它很可能是公司计划在春节前后发布的新模型的代号 [1][2] 产品架构与技术定位 - “Model 1”被确认为DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2 [1][2] - 该模型很可能是一个高效推理模型,其特点是相比V3.2内存占用更低,因此适合部署在边缘设备或成本敏感的应用场景 [1][2] - 此外,“Model 1”也可能被定位为一个长序列专家模型,针对超过16K的序列长度进行了优化,使其特别适合处理文档理解、代码分析等需要长上下文的复杂任务 [1][2]