Workflow
Flash MLA
icon
搜索文档
DeepSeek新模型曝光?
新华网财经· 2026-01-22 13:00
开源代码与模型动态 - DeepSeek在GitHub上更新了Flash MLA代码库,涉及的114个文件中,有数十处提到了此前未公开的"MODEL1"大模型标识符 [2] - 在部分文件中,"MODEL1"与已知的现有模型"V32"(即DeepSeek-V3.2)并列提及,行业分析认为"MODEL1"可能代表一个不同于现有架构的新模型,或许是DeepSeek还未对外发布的下一代模型(R2或者V4)[4] - 2025年2月,DeepSeek启动"开源周",计划以每日解锁的形式逐步公开5个代码库,Flash MLA为首个开源项目 [3] 技术进展与模型发布计划 - 公开资料显示,Flash MLA通过优化Hopper GPU的内存访问和计算流程,显著提高可变长度序列的处理效率,其核心设计包括动态内存分配机制和并行解码策略,可减少冗余计算并提升吞吐量,尤其适用于大语言模型的推理任务 [3] - 此前有市场消息称,DeepSeek计划在2025年2月春节前后发布新一代AI模型DeepSeek V4,但发布时间可能会视实际情况而变化 [4] - V4模型是DeepSeek 2024年12月发布的V3模型的迭代版,具备强大的编程能力,公司内部的初步测试显示,V4在编程能力上超过了目前市场上的其他顶级模型,如Anthropic的Claude和OpenAI的GPT系列 [4] 近期研究成果 - 2026年1月以来,DeepSeek动作不断,已陆续发布了两篇技术论文,分别介绍了名为"优化残差连接(mHC)"的新训练方法,以及一种受生物学启发的"AI记忆模块(Engram)" [4] - 2026年1月12日,DeepSeek在GitHub上发表新论文,文章由DeepSeek与北京大学合作完成,作者中有梁文锋署名,文章提出了条件记忆(conditional memory),并给出了实现方案Engram模块,公司称该模块不仅有助于知识检索,同时在一般推理和代码/数学领域方面取得了更大的进步 [5] 公司背景与资金支持 - 在业内看来,梁文锋旗下私募幻方量化较高的收益率,为DeepSeek的研发提供了更多支持 [5] - 公开资料显示,幻方量化2025年的收益均值达56.55%,在中国管理规模超百亿的量化私募业绩榜中位列第二,仅次于以73.51%收益均值登顶的灵均投资,目前,幻方量化管理规模已超700亿元 [5]
DeepSeek新模型曝光?“MODEL1”现身开源社区
上海证券报· 2026-01-22 05:31
DeepSeek技术进展与开源动态 - 公司于2025年2月启动“开源周”,计划以每日解锁形式逐步公开5个代码库,首个开源项目为Flash MLA [4] - Flash MLA通过优化Hopper GPU的内存访问和计算流程,显著提高可变长度序列的处理效率,其核心设计包括动态内存分配机制和并行解码策略,可减少冗余计算并提升吞吐量,尤其适用于大语言模型的推理任务 [4] 疑似新一代模型“MODEL1”的线索 - 近日,DeepSeek官方在GitHub更新FlashMLA代码,涉及的114个文件中,有数十处提到了此前未公开的“MODEL1”大模型标识符 [3] - 在某些文件中,“MODEL1”与已知的现有模型“V32”(即DeepSeek-V3.2)并列提及,行业分析认为,“MODEL1”或许代表一个不同于现有架构的新模型,可能正是公司还未对外发布的下一代模型(R2或者V4) [4] - 此前有市场消息称,公司计划在2025年2月春节前后发布新一代AI模型DeepSeek V4,该模型是2024年12月发布的V3模型的迭代版,具备强大的编程能力 [4] 近期技术研究成果 - 2026年1月以来,公司已陆续发布两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)” [5] - 1月12日,公司与北京大学合作发表新论文,提出了条件记忆(conditional memory)及其实现方案Engram模块,该模块不仅有助于知识检索,同时在一般推理和代码/数学领域方面取得了更大的进步 [5] 公司研发的资金支持背景 - 公司创始人梁文锋旗下的私募幻方量化2025年的收益均值达56.55%,在中国管理规模超百亿的量化私募业绩榜中位列第二,仅次于以73.51%收益均值登顶的灵均投资 [5] - 目前,幻方量化管理规模已超700亿元,其较高的收益率为DeepSeek的研发提供了更多支持 [5] 模型性能表现 - 公司内部的初步测试显示,其新一代模型V4在编程能力上超过了目前市场上的其他顶级模型,如Anthropic的Claude和OpenAI的GPT系列 [4][5]
DeepSeek开源周活动收官,将加快大模型在各行业的应用落地
平安证券· 2025-03-03 17:15
行业投资评级 - 计算机行业评级为强于大市(维持)[1] 核心观点 - DeepSeek开源周活动通过发布五个开源软件库项目(涵盖计算、通信到存储),推动全球开发者复刻其低成本、高性能大模型技术,加速大模型在各行业应用落地[2][5][6] - 全球大模型竞争持续激烈(Grok-3、Claude 3.7 Sonnet、GPT-4.5陆续发布),推动AI能力上限提升,并为AI算力需求增长提供支撑[2][8][11] - 英伟达FY25Q4业绩表现强劲,营收393亿美元(环比增12%、同比增78%),净利润220.91亿美元(同比增80%),数据中心业务为主要增长引擎(收入356亿美元,环比增16%、同比增93%)[13][14] - Blackwell架构需求强劲(第四季度销售额110亿美元),推理侧应用显著提升效率(如某公司推理吞吐量提升3倍、成本降66%)[15] 行业要闻及简评 **DeepSeek开源技术细节** - 开源项目包括:Flash MLA(优化Hopper GPU解码)、DeepEP(MoE训练推理通信库)、DeepGEMM(FP8矩阵计算库)、DualPipe与EPLB(并行负载均衡工具)、3FS(数据访问助推器)[5] - 披露理论成本与利润率:峰值占用278节点(每节点8个H800 GPU),日均成本87,072美元(按2美元/小时租赁),理论日均收入562,027美元,成本利润率545%[6] **全球大模型竞争动态** - GPT-4.5采用10倍算力训练,定价较高(输入75美元/百万token、输出150美元/百万token),较Claude 3.7(输入3美元/百万token)和DeepSeek-V3(错峰优惠输入0.25元/百万token)更昂贵[9][10] - Claude 3.7 Sonnet支持标准与扩展思维双模式,提升数学、物理及编程任务能力[11] **英伟达业绩与技术进展** - FY25全年营收1,305亿美元(同比增114%),Q4毛利率73%(略低于去年同期76%)[14] - Blackwell集群规模超10万块GPU,推理领域需求强劲;Blackwell Ultra计划2025年下半年上市[15] 重点公司业绩摘要 **增长显著企业** - 同花顺:营收41.87亿元(同比增17.47%),归母净利润18.23亿元(同比增30%)[18] - 达梦数据:营收10.44亿元(同比增31.49%),归母净利润3.62亿元(同比增22.26%)[18] - 道通科技:营收39.32亿元(同比增20.95%),归母净利润6.40亿元(同比增257.34%)[18] - 金山办公:营收51.21亿元(同比增12.40%),归母净利润16.45亿元(同比增24.84%)[18] - 麒麟信安:营收2.86亿元(同比增75.24%),归母净利润786.55万元(扭亏为盈)[20] **业绩承压企业** - 中科曙光:营收131.66亿元(同比降8.27%),归母净利润19.14亿元(同比增4.26%)[18] - 奇安信:营收43.55亿元(同比降32.41%),归母净利润-13.63亿元[20] - 航天宏图:营收15.92亿元(同比降12.49%),归母净利润-14.32亿元(同比降282.71%)[20] 市场表现 - 计算机行业指数上周下跌7.82%,跑输沪深300指数(跌2.22%)5.60个百分点[21] - 年初至上周累计上涨13.79%,跑赢沪深300指数(跌1.14%)14.93个百分点[21] - 行业市盈率51.8倍,周内360只成分股中47只上涨、1只平盘、312只下跌[24] - 涨幅前列:大位科技(涨55.67%)、天玑科技(涨37.04%)、中电兴发(涨36.82%)[25] 投资建议 推荐关注五大板块: 1. **信创板块**:推荐海光信息、龙芯中科、中科曙光等7家,建议关注中国软件等5家[28] 2. **华为产业链**:推荐神州数码,建议关注拓维信息等5家[28] 3. **AI板块**:强烈推荐中科创达等3家,推荐工业富联等6家,建议关注寒武纪等4家[28] 4. **低空经济**:推荐道通科技,建议关注万丰奥威等11家[28] 5. **金融IT**:强烈推荐恒生电子,推荐同花顺等3家,建议关注新国都等3家[28]