Seek .-R1模型发布一周年 DeepSeek新模型“MODEL1”曝光

公司技术路线与产品矩阵 - DeepSeek已形成两条主要技术路线：追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家” [2] - 公司于2024年12月推出重要里程碑模型V3，其高效的MoE架构奠定了强大的综合性能基础 [3] - 公司在V3基础上快速迭代，先后发布了强化推理与智能体能力的V3.1，并于2025年12月推出最新正式版V3.2 [3] - 公司同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale [3] - 公司于2025年1月发布R1模型，该模型通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越，并首创了“深度思考”模式 [3] 新模型“MODEL1”的发现与推测 - 2025年1月，DeepSeek官方GitHub仓库更新FlashMLA代码，代码分析发现了一个此前未公开的模型架构标识“MODEL1”，该标识在114个总代码文件中被提及31次 [1] - “MODEL1”是DeepSeek FlashMLA中支持的两个主要模型架构之一，另一个是DeepSeek-V3.2 [2] - 推测“MODEL1”很可能是一个高效推理模型，相比V3.2内存占用更低，适合边缘设备或成本敏感场景 [2] - 推测“MODEL1”也可能是一个针对16K+序列优化的长序列专家，适合文档理解、代码分析等长上下文任务 [2] 技术创新与硬件适配 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具，专门用于加速大模型的“推理生成”环节 [1] - FlashMLA算法的实现基础MLA（多层注意力机制）是DeepSeek模型实现低成本、高性能的关键技术之一，用于在模型架构层面减少内存占用，最大化利用GPU硬件 [1] - “MODEL1”的硬件实现跨越多个GPU架构：在英伟达H100/H200（SM90架构）上有64头和128头两个配置版本；在最新的B200（SM100架构）上有专门的Head64内核实现 [2] - SM100架构的Head128实现仅支持“MODEL1”，不支持V3.2，推测DeepSeek为适配英伟达新一代GPU专门优化了“MODEL1”的架构 [2] 未来产品发布与技术整合 - 科技媒体The Information爆料称，DeepSeek将在2025年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4，该模型将具备更强的写代码能力 [3] - DeepSeek研究团队近期发布了两篇技术论文，分别介绍了名为“优化残差连接（mHC）”的新训练方法，以及一种受生物学启发的“AI记忆模块（Engram）” [3] - 此举引起用户猜测，公司正在开发中的新模型有可能会整合这些最新的研究成果 [3]