Workflow
AI记忆模块(Engram)
icon
搜索文档
DeepSeek新模型曝光?“MODEL1”现身开源社区
上海证券报· 2026-01-22 05:31
DeepSeek技术进展与开源动态 - 公司于2025年2月启动“开源周”,计划以每日解锁形式逐步公开5个代码库,首个开源项目为Flash MLA [4] - Flash MLA通过优化Hopper GPU的内存访问和计算流程,显著提高可变长度序列的处理效率,其核心设计包括动态内存分配机制和并行解码策略,可减少冗余计算并提升吞吐量,尤其适用于大语言模型的推理任务 [4] 疑似新一代模型“MODEL1”的线索 - 近日,DeepSeek官方在GitHub更新FlashMLA代码,涉及的114个文件中,有数十处提到了此前未公开的“MODEL1”大模型标识符 [3] - 在某些文件中,“MODEL1”与已知的现有模型“V32”(即DeepSeek-V3.2)并列提及,行业分析认为,“MODEL1”或许代表一个不同于现有架构的新模型,可能正是公司还未对外发布的下一代模型(R2或者V4) [4] - 此前有市场消息称,公司计划在2025年2月春节前后发布新一代AI模型DeepSeek V4,该模型是2024年12月发布的V3模型的迭代版,具备强大的编程能力 [4] 近期技术研究成果 - 2026年1月以来,公司已陆续发布两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)” [5] - 1月12日,公司与北京大学合作发表新论文,提出了条件记忆(conditional memory)及其实现方案Engram模块,该模块不仅有助于知识检索,同时在一般推理和代码/数学领域方面取得了更大的进步 [5] 公司研发的资金支持背景 - 公司创始人梁文锋旗下的私募幻方量化2025年的收益均值达56.55%,在中国管理规模超百亿的量化私募业绩榜中位列第二,仅次于以73.51%收益均值登顶的灵均投资 [5] - 目前,幻方量化管理规模已超700亿元,其较高的收益率为DeepSeek的研发提供了更多支持 [5] 模型性能表现 - 公司内部的初步测试显示,其新一代模型V4在编程能力上超过了目前市场上的其他顶级模型,如Anthropic的Claude和OpenAI的GPT系列 [4][5]
DeepSeek新模型“MODEL1”曝光
第一财经资讯· 2026-01-21 17:05
新模型“MODEL1”的技术线索与进展 - 在DeepSeek-R1发布一周年之际,其官方GitHub代码库中出现了数十处此前未公开的“MODEL1”大模型标识符 [2] - “MODEL1”标识符与已知的现有模型“V32”(即DeepSeek-V3.2)在代码中被并列提及,行业根据代码上下文认为其很可能代表一个不同于现有架构的新模型 [3] - 根据开发者分析,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等关键技术方面存在区别,表明新架构可能在内存优化和计算效率上进行了针对性设计 [5] - 结合模型文件结构来看,“MODEL1”很可能已接近训练完成或推理部署阶段,正等待最终的权重冻结和测试验证,意味着新模型上线时间越来越近 [5] 新模型的技术背景与市场传闻 - 近一个月内,DeepSeek团队陆续发布了两篇技术论文,介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”,业内猜测新模型可能会整合这些最新研究成果 [6] - 此前有报道称,DeepSeek将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型,此次项目曝光或许印证了该传闻 [6] - 行业对于“MODEL1”的具体定位有不同看法,有观点认为是V4模型或推理模型R2,也有开发者认为可能是V3系列的终极版 [3] DeepSeek的技术基础与历史产品 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,是公司模型实现低成本、高性能的关键技术之一,可以在模型架构层面减少内存占用,最大化利用GPU硬件 [4] - DeepSeek在2024年12月推出旗舰模型V3,凭借高效的MoE架构确立了强大的综合性能基础,随后在2025年1月发布了基于强化学习的推理模型R1,在解决数学问题、代码编程等复杂推理任务上表现卓越 [6] DeepSeek-R1的行业影响与中国AI开源生态 - 海外开源社区Hugging Face发布博客回顾“DeepSeek时刻”一周年,指出中国AI力量在过去一年重塑了全球开源生态 [7] - DeepSeek-R1是Hugging Face上获赞最多的模型,其开源不仅降低了推理技术、生产部署与心理三个门槛,更推动了国内公司在开源方向上形成非协同但高度一致的战略走向 [9] - 过去一年,百度、阿里巴巴、腾讯等巨头及月之暗面等初创公司大幅增加开源投入,中国模型在Hugging Face上的下载量已超越美国 [9] - 尽管西方寻求替代方案,但全球众多初创企业和研究人员正逐渐依赖中国开发的开源模型作为基础,中国AI已深度嵌入全球供应链 [9]
R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
新浪财经· 2026-01-21 12:05
公司技术路线与产品矩阵 - DeepSeek已形成两条主要技术路线:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家” [2] - 公司于2024年12月推出重要里程碑模型V3,其高效的MoE架构奠定了强大的综合性能基础 [3] - 公司在V3基础上快速迭代,先后发布了强化推理与智能体能力的V3.1,并于2025年12月推出最新正式版V3.2 [3] - 公司同时推出了专注于攻克高难度数学和学术问题的特殊版本V3.2-Speciale [3] - 公司于2025年1月发布R1模型,该模型通过强化学习在解决数学问题、代码编程等复杂推理任务上表现卓越,并首创了“深度思考”模式 [3] 新模型“MODEL1”的发现与推测 - 2025年1月,DeepSeek官方GitHub仓库更新FlashMLA代码,代码分析发现了一个此前未公开的模型架构标识“MODEL1”,该标识在114个总代码文件中被提及31次 [1] - “MODEL1”是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2 [2] - 推测“MODEL1”很可能是一个高效推理模型,相比V3.2内存占用更低,适合边缘设备或成本敏感场景 [2] - 推测“MODEL1”也可能是一个针对16K+序列优化的长序列专家,适合文档理解、代码分析等长上下文任务 [2] 技术创新与硬件适配 - FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门用于加速大模型的“推理生成”环节 [1] - FlashMLA算法的实现基础MLA(多层注意力机制)是DeepSeek模型实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化利用GPU硬件 [1] - “MODEL1”的硬件实现跨越多个GPU架构:在英伟达H100/H200(SM90架构)上有64头和128头两个配置版本;在最新的B200(SM100架构)上有专门的Head64内核实现 [2] - SM100架构的Head128实现仅支持“MODEL1”,不支持V3.2,推测DeepSeek为适配英伟达新一代GPU专门优化了“MODEL1”的架构 [2] 未来产品发布与技术整合 - 科技媒体The Information爆料称,DeepSeek将在2025年2月中旬农历新年期间推出新一代旗舰AI模型DeepSeek V4,该模型将具备更强的写代码能力 [3] - DeepSeek研究团队近期发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)” [3] - 此举引起用户猜测,公司正在开发中的新模型有可能会整合这些最新的研究成果 [3]