DeepSeek新模型“MODEL1”架构曝光 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,其中发现一个此前未公开的模型架构标识“MODEL1”,在114个总代码文件中被提及31次[4] - FlashMLA是公司独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型推理生成环节,其实现基础MLA是公司模型实现低成本、高性能的关键技术之一[4] - MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2[5] MODEL1的技术特性与市场定位推测 - 推测MODEL1很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景[5] - 推测MODEL1也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务[5] - MODEL1的硬件实现跨越多个GPU架构,在英伟达H100/H200上有64头和128头两个版本,在最新的B200上有专门的Head64内核实现,且SM100的Head128实现仅支持MODEL1,不支持V3.2[5] - 有人猜测公司为适配英伟达新一代GPU,专门优化了MODEL1的架构[5] DeepSeek现有产品线梳理 - 公司已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”[6] - 2024年12月推出的V3是公司的重要里程碑,其高效的MoE架构确立了强大的综合性能基础[6] - 公司在V3基础上快速迭代,发布了强化推理与Agent能力的V3.1,并于2025年12月推出了最新正式版V3.2,同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale[6] - 2025年1月发布的R1通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式[7] 公司未来产品与技术动向 - 科技媒体The Information月初爆料称,公司将在2025年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力[7] - 公司研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接”的新训练方法,以及一种受生物学启发的“AI记忆模块”[7] - 这一举动引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果[7]
DeepSeek新模型曝光
财联社·2026-01-21 14:34