DeepSeek新模型曝光

DeepSeek新模型“MODEL1”架构曝光 - 2025年1月，DeepSeek官方GitHub仓库更新FlashMLA代码，其中发现一个此前未公开的模型架构标识“MODEL1”，在114个总代码文件中被提及31次[4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具，专门加速大模型推理生成环节，其实现基础MLA是公司模型实现低成本、高性能的关键技术之一[4] - MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一，另一个是DeepSeek-V3.2[5] MODEL1的技术特性与市场定位推测 - 推测MODEL1很可能是一个高效推理模型，相比V3.2内存占用更低，适合边缘设备或成本敏感场景[5] - 推测MODEL1也可能是一个长序列专家，针对16K+序列优化，适合文档理解、代码分析等长上下文任务[5] - MODEL1的硬件实现跨越多个GPU架构，在英伟达H100/H200上有64头和128头两个版本，在最新的B200上有专门的Head64内核实现，且SM100的Head128实现仅支持MODEL1，不支持V3.2[5] - 有人猜测公司为适配英伟达新一代GPU，专门优化了MODEL1的架构[5] DeepSeek现有产品线梳理 - 公司已发布的主要模型是两条技术路线的代表：追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”[6] - 2024年12月推出的V3是公司的重要里程碑，其高效的MoE架构确立了强大的综合性能基础[6] - 公司在V3基础上快速迭代，发布了强化推理与Agent能力的V3.1，并于2025年12月推出了最新正式版V3.2，同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale[6] - 2025年1月发布的R1通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越，并首创了“深度思考”模式[7] 公司未来产品与技术动向 - 科技媒体The Information月初爆料称，公司将在2025年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4，将具备更强的写代码能力[7] - 公司研究团队陆续发布了两篇技术论文，分别介绍了名为“优化残差连接”的新训练方法，以及一种受生物学启发的“AI记忆模块”[7] - 这一举动引起用户猜测，公司正在开发中的新模型有可能会整合这些最新的研究成果[7]