开源代码与模型动态 - DeepSeek在GitHub上更新了Flash MLA代码库,涉及的114个文件中,有数十处提到了此前未公开的"MODEL1"大模型标识符 [2] - 在部分文件中,"MODEL1"与已知的现有模型"V32"(即DeepSeek-V3.2)并列提及,行业分析认为"MODEL1"可能代表一个不同于现有架构的新模型,或许是DeepSeek还未对外发布的下一代模型(R2或者V4)[4] - 2025年2月,DeepSeek启动"开源周",计划以每日解锁的形式逐步公开5个代码库,Flash MLA为首个开源项目 [3] 技术进展与模型发布计划 - 公开资料显示,Flash MLA通过优化Hopper GPU的内存访问和计算流程,显著提高可变长度序列的处理效率,其核心设计包括动态内存分配机制和并行解码策略,可减少冗余计算并提升吞吐量,尤其适用于大语言模型的推理任务 [3] - 此前有市场消息称,DeepSeek计划在2025年2月春节前后发布新一代AI模型DeepSeek V4,但发布时间可能会视实际情况而变化 [4] - V4模型是DeepSeek 2024年12月发布的V3模型的迭代版,具备强大的编程能力,公司内部的初步测试显示,V4在编程能力上超过了目前市场上的其他顶级模型,如Anthropic的Claude和OpenAI的GPT系列 [4] 近期研究成果 - 2026年1月以来,DeepSeek动作不断,已陆续发布了两篇技术论文,分别介绍了名为"优化残差连接(mHC)"的新训练方法,以及一种受生物学启发的"AI记忆模块(Engram)" [4] - 2026年1月12日,DeepSeek在GitHub上发表新论文,文章由DeepSeek与北京大学合作完成,作者中有梁文锋署名,文章提出了条件记忆(conditional memory),并给出了实现方案Engram模块,公司称该模块不仅有助于知识检索,同时在一般推理和代码/数学领域方面取得了更大的进步 [5] 公司背景与资金支持 - 在业内看来,梁文锋旗下私募幻方量化较高的收益率,为DeepSeek的研发提供了更多支持 [5] - 公开资料显示,幻方量化2025年的收益均值达56.55%,在中国管理规模超百亿的量化私募业绩榜中位列第二,仅次于以73.51%收益均值登顶的灵均投资,目前,幻方量化管理规模已超700亿元 [5]
DeepSeek新模型曝光?
新华网财经·2026-01-22 13:00