DeepSeek新模型真的要来了?“MODEL1”曝光

新模型“MODEL1”的发现与推测 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处提及此前未公开的“MODEL1”大模型标识符 [1] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在项目中被并列提及 [2] - 根据代码上下文,行业认为“MODEL1”很可能代表一个不同于现有架构的新模型,具体可能是V4模型、推理模型R2或V3系列的终极版 [2] 新模型的技术特征与进展 - “MODEL1”与“V32”在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面 [3] - 这些技术差异表明新架构可能在内存优化和计算效率上进行了针对性设计 [3] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [3] DeepSeek的技术发展背景与行业影响 - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [4] - 在近一个月里,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立强大综合性能基础,随后在2025年1月发布了在复杂推理任务上表现卓越的推理模型R1 [4] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [7] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [7] - 全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [7]

Seek .-DeepSeek新模型真的要来了?“MODEL1”曝光 - Reportify