炸锅了!DeepSeek MODEL1 引发全网大猜测,R2 or V4?
程序员的那些事·2026-01-21 12:21
公司动态:DeepSeek新模型“MODEL1”意外曝光 - 在DeepSeek-R1发布一周年之际,公司官方GitHub仓库更新代码时意外曝光了一个名为“MODEL1”的全新模型 [1] - 该模型在114个文件中被提及近30次,并与现有主力模型V3.2并列成为独立分支,表明这不是一次简单的版本迭代 [1] 技术细节:新模型的技术特征与优化 - 泄露的代码细节显示,“MODEL1”优化了KV缓存布局并支持FP8稀疏解码内核 [2] - 新模型适配了最新的英伟达Blackwell架构,预计将大幅提升推理效率并减少显存占用 [2] - “MODEL1”整合了长上下文优化机制,旨在解决大模型“记不住长文本”的行业痛点 [2] 市场猜测:新模型的身份与发布时间 - 市场猜测“MODEL1”可能是传闻中因芯片短缺而延迟发布的R2模型,该模型早在2025年就传出研发消息 [3] - 另一种猜测认为,按照命名惯例,V3.2之后的全新架构逻辑上应为V4模型 [3] - 有消息称新模型可能于春节前后发布,但公司官方尚未对此作出回应 [3]