Seek .-DeepSeek新模型曝光？“MODEL1”现身开源社区

DeepSeek技术进展与开源动态 - 公司于2025年2月启动“开源周”，计划以每日解锁形式逐步公开5个代码库，首个开源项目为Flash MLA [4] - Flash MLA通过优化Hopper GPU的内存访问和计算流程，显著提高可变长度序列的处理效率，其核心设计包括动态内存分配机制和并行解码策略，可减少冗余计算并提升吞吐量，尤其适用于大语言模型的推理任务 [4] 疑似新一代模型“MODEL1”的线索 - 近日，DeepSeek官方在GitHub更新FlashMLA代码，涉及的114个文件中，有数十处提到了此前未公开的“MODEL1”大模型标识符 [3] - 在某些文件中，“MODEL1”与已知的现有模型“V32”（即DeepSeek-V3.2）并列提及，行业分析认为，“MODEL1”或许代表一个不同于现有架构的新模型，可能正是公司还未对外发布的下一代模型（R2或者V4） [4] - 此前有市场消息称，公司计划在2025年2月春节前后发布新一代AI模型DeepSeek V4，该模型是2024年12月发布的V3模型的迭代版，具备强大的编程能力 [4] 近期技术研究成果 - 2026年1月以来，公司已陆续发布两篇技术论文，分别介绍了名为“优化残差连接（mHC）”的新训练方法，以及一种受生物学启发的“AI记忆模块（Engram）” [5] - 1月12日，公司与北京大学合作发表新论文，提出了条件记忆（conditional memory）及其实现方案Engram模块，该模块不仅有助于知识检索，同时在一般推理和代码/数学领域方面取得了更大的进步 [5] 公司研发的资金支持背景 - 公司创始人梁文锋旗下的私募幻方量化2025年的收益均值达56.55%，在中国管理规模超百亿的量化私募业绩榜中位列第二，仅次于以73.51%收益均值登顶的灵均投资 [5] - 目前，幻方量化管理规模已超700亿元，其较高的收益率为DeepSeek的研发提供了更多支持 [5] 模型性能表现 - 公司内部的初步测试显示，其新一代模型V4在编程能力上超过了目前市场上的其他顶级模型，如Anthropic的Claude和OpenAI的GPT系列 [4][5]