Workflow
DeepSeek V4
icon
搜索文档
渤海证券研究所晨会纪要(2026.01.16)-20260116
渤海证券· 2026-01-16 12:24
宏观及策略研究:进出口数据点评 - 2025年12月美元计价中国出口同比增长6.6%,高于前值5.9%和市场预期3.1% [2] - 2025年12月美元计价进口同比增长5.7%,高于前值1.9%和市场预期0.9%,当月贸易顺差达1141.38亿美元,为历史第三高水平 [2] - 出口结构持续优化,对欧盟和东盟的出口份额持续巩固,对非洲、印度和澳大利亚的出口增速保持高增 [2] - 高新技术和集成电路等高附加值产品对整体出口增速贡献超6个百分点,半导体、高端装备、工业机器人出口景气度较高 [2] - 汽车出口增速在墨西哥加征关税的催化下走高,钢材等产品呈现“以价换量”趋势,稀土则出现“量价齐升” [2] - 进口方面,价格因素仍显拖累,从美国的进口同比增速回落最为明显,机电类产品和高新技术产品是进口增长主要贡献来源 [3] - 上游大宗商品进口增速分化,12月煤、原油和天然气进口数量上升,铜材进口数量小幅回落 [3] - 展望2026年,中美贸易和缓营造良好外部条件,海外财政扩张和AI投资加速,叠加国内“抢出口”及春节偏晚的季节性因素,开年出口有望延续强势 [3] 宏观及策略研究:A股市场投资策略 - 2026年宏观总量层面存在外需韧性的拉动,增量政策逐步落地以扩大内需,价格层面“反内卷”聚焦产能端,有望带来规上工企及上市公司业绩改善 [4] - 美国通胀相对温和但就业下行风险可控,降低了短期降息的迫切性,1月议息会议大概率将暂停降息 [5] - 国内资金面在年末季节性收紧后,跨年后重回相对宽松,后续货币政策将延续“支持性立场” [5] - A股流动性方面,在“持续深化资本市场投融资综合改革”目标下,权益类公募基金规模预计将持续扩大,融资规模增速将放缓 [5] - 管理层有意推动投资端资金以更平缓态势流入,融资端在政策支持下,除并购重组外,IPO也有望逐步活跃,产业资本维持较快的净减持节奏 [5] - 市场展望方面,市场在经历急涨及成交显著放大后阻力已现,情绪释放后或需整固以夯实行情基础 [5] - 在大指数存在放缓预期的背景下,结构上因大量融资资金涌入仍不乏亮点,但题材活跃范围和幅度将总体趋于回落 [5] - 行业配置可关注:TMT板块及机器人领域(受益于AI资本开支扩张、算力国产替代及应用端催化)、有色金属行业(受益于全球地缘风险及部分品种供需缺口)以及银行、保险行业(受益于中长期资金入市、低利率环境及公募基金持仓向业绩基准回归) [6] 行业研究:计算机行业周报 - 2026年1月8日至1月14日,申万计算机行业上涨13.38%,跑赢沪深300指数(下跌0.73%),三级子行业全部上涨 [7] - AI算力方面,英伟达发布下一代AI芯片平台“Rubin”,其性能与能耗表现相较于Blackwell架构有显著提升,有望提升云服务厂商AI算力供给能力 [8] - AI大模型方面,智谱与MiniMax近期登陆港交所,有望为行业估值定价及融资体系建立提供关键锚点 [8] - DeepSeek V4大模型预计于农历新年期间推出,或将推动国产大模型实现新一轮技术迭代 [8] - AI应用方面,国家八部门联合印发《“人工智能+制造”专项行动实施意见》,推动人工智能与制造业深度融合,引导平台企业将AI技术向工业全链条渗透 [11] - 海外方面,OpenAI同意以约1亿美元收购医疗保健初创企业Torch,有望催化AI医疗细分领域加速发展 [9][11] - 报告持续看好AI应用板块在技术落地提速与场景需求释放双重驱动下的增长潜力,建议关注应用端具备AI技术落地实力与场景适配优势的头部企业 [11]
Deepseek新模型有望2月发布,这些方向成潜在发酵重点
选股宝· 2026-01-15 16:19
事件概述 - DeepSeek或将于2月发布新一代旗舰AI模型DeepSeek V4 [1] - 内部初步测试表明,V4在编程能力上超过了Anthropic的Claude和OpenAI的GPT系列 [1] 核心技术突破:Engram模块 - Engram模块是V4架构的核心突破,是一个巨大的、可扩展的嵌入表,为Transformer增加外接记忆库 [2] - 该模块实现了“查算分离”,将实体名、通用常识等静态知识存入可扩展查找表,实现O(1)级快速检索,让MoE专家层聚焦复杂推理 [2] - 该技术将大模型20%-25%的静态知识参数从GPU显存迁移至主机内存,重塑了模型的存储需求结构 [3] - 同等参数规模下,模型对高成本HBM的依赖强度显著下降 [3] - 系统可在GPU执行计算时异步预取DRAM数据,使DRAM成为承载“温数据”的核心层级,单节点存储容量有望从1-2TB翻倍至4TB以上 [3] 对产业链的潜在影响 - 技术变革直接带动服务器对高频DDR5、MRDIMM及CXL存储池化技术的需求爆发 [3] - 推动AI应用场景下SSD用量进入高速增长通道 [3] - 相关SSD存储标的包括江波龙、德明利、佰维存储 [9] AI编程的战略意义与市场前景 - AI编程是当前B端应用落地最成熟和最主流的赛道 [4] - Anthropic的AI编程工具Claude Code在发布仅6个月后年度化收入就达到了10亿美金 [4] - 根据OpenRouter数据,AICoding占据全球token总消耗的50% [4] - 国产开源大模型有利于提升国产IDE的使用频次和深度 [4] - 低代码平台同样受益于国产大模型的发展,可将智能化场景合理拆分,分阶段推进 [4] - 相关应用厂商标的包括合合信息、万兴科技、京北方、宇信科技、华宇软件、卫宁健康、创业慧康、嘉和美康、用友网络、金蝶国际等 [9] V4版本的其他潜在关注点 - 关注V4是否会发布蒸馏版本以提升AI应用使用性价比,蒸馏版本可适用于多种算力芯片,利好消费电子 [5] - 关注API定价是否会大幅低于其他主流大模型 [5] - 关注V4在多模态上是否有重要更新 [5] - 关注V4是否进一步支持国产芯片架构,DeepSeek在V3.1时已公开使用针对国产芯片设计的UE8M0 FP8 Scale参数精度 [5] - 国产大模型和国产芯片之间的协同将有效加速国内AI产业发展 [5] - 相关算力基础设施标的包括寒武纪、海光信息、弘信电子、首都在线、光环新网、优刻得、科华数据、浪潮信息等 [9] 历史市场表现 - DeepSeek R1模型于2025年春节前发布,并在春节期间火爆全球 [6] - 概念股每日互动从17元附近一度最高涨至70元 [6]
春节AI王炸突袭!DeepSeekV4硬刚海外巨头,暗藏关键破局点
搜狐财经· 2026-01-15 16:03
公司发展历程与市场地位 - 公司于2024年12月26日推出基础模型V3,随后在2025年1月20日上线开源推理模型R1,凭借“先思考、再作答”的显式推理能力获得市场关注 [4] - 公司推出的R1+V3聊天产品在国内收获极高关注度,已成长为中国AI工程能力领域的标杆企业之一 [4] - 公司创始人梁文锋与北京大学研究人员于1月12日晚间共同发布了新训练架构论文,题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》 [9] 新一代模型V4的技术突破 - 新一代大模型V4预计于2026年2月中旬农历新年前后上线 [1] - 新模型编程能力大幅提升,在Design2Code等权威编程基准测试中以92.0分刷新纪录,可将手绘草图直接转化为可运行的React代码,多项关键指标超越GPT-4.5、Claude3.7等海外头部产品 [6] - 模型解决了超长上下文处理难题,搭载NSA机制实现64K上下文窗口下6-9倍提速,可一次性处理百万级Token,适配复杂软件工程的完整上下文需求 [6] - 模型在高端GPU受限的情况下研发而成,依托自研的mHC架构,训练稳定性大幅提升 [7] - 在270亿参数模型测试中,仅增加6.7%训练时间,就使复杂推理任务准确率从43.8%跃升至51.0%,有效规避了行业常见的训练崩溃与性能衰减问题 [7] 核心架构创新与竞争策略 - 论文提出的Engram条件记忆模块,核心是实现计算与存储“解耦”,让CPU负责静态知识存储,GPU专注推理计算,无需依赖芯片数量堆砌即可实现模型规模扩展 [10] - 公司采取“不拼资源拼方法”的路线,在海外大厂侧重算力与参数竞赛时,深耕效率与架构创新,形成差异化竞争 [10] - V4的推出旨在证明自身技术领先性,并向行业验证其架构创新方法论的成熟度 [13] - 从内部反馈看,V4回答结构严谨、推理路径清晰,拆解复杂任务能力可靠,是一次贴合实际应用需求的实用型升级 [13] 行业趋势与竞争格局 - 2025年开源成为大模型行业的核心趋势之一,大厂和初创公司密集发布模型,争夺全球开源生态话语权 [11] - DeepSeek、MiniMax、智谱、月之暗面等中国企业,频繁与全球同行同台竞技,旗下模型在HuggingFace等国际社区的存在感持续提升 [11] - 全球大模型竞争焦点已从单纯的参数竞赛,转向技术方法的精妙与运行效率高下的角逐 [16] - V4的市场表现,不仅关乎公司在全球开源生态中的地位,更能折射出中国大模型技术路线的成熟度 [16]
AI应用强势反弹,软件再度领涨!软件50ETF(159590)大涨超5%,两日大举揽金超2.7亿!GEO赛道持续爆火
搜狐财经· 2026-01-14 11:16
市场表现与资金流向 - A股软件板块持续火热,软件50ETF(159590)在1月14日暴涨超5%,资金快速涌入,两日大举揽金超2.7亿元 [1] - 软件50ETF热门成分股多数大涨,其中用友网络涨超8%,同花顺、中科星图涨超7%,三六零涨超6%,指南针涨5%,科大讯飞涨超4% [4] - 具体成分股表现方面,科大讯飞(估算权重12.07%)涨4.80%,成交额51.27亿;同花顺(估算权重7.09%)涨7.30%,成交额47.74亿;用友网络(估算权重3.01%)涨8.91%,成交额42.76亿;指南针(估算权重4.31%)涨5.00%,成交额29.80亿;三六零(估算权重3.95%)涨6.53%,成交额29.16亿;中科星图(估算权重2.92%)涨7.41%,成交额24.20亿 [5] 政策驱动与产业目标 - 政策层面,有关部门于1月13日印发《推动工业互联网平台高质量发展行动方案(2026—2028年)》,为2028年设定了具体目标 [3] - 2028年目标包括培育超450家具有一定影响力的工业互联网平台,工业设备连接数突破1.2亿台(套),平台普及率达到55%以上 [3] AI产业进展与趋势 - AI产业热度持续攀升,资本、应用与技术层面均有关键进展 [6] - 资本层面,智谱与MiniMax两家头部通用大模型企业于1月8日至9日先后登陆港交所,上市后表现强劲,印证资本市场对AI赛道的高度认可 [6] - 应用层面,火山引擎官宣成为2026年总台春晚独家AI云合作伙伴,字节跳动旗下智能助手豆包将同步推出多元互动玩法,标志着大厂AI产品迈入国民级场景落地新阶段 [6] - 技术层面,DeepSeek计划于2月中旬推出最新旗舰模型V4,据内部测试显示,其在代码生成领域的表现已超越Anthropic Claude、OpenAI GPT等主流模型 [6] - 产业应用层面,人工智能正加快从概念走向实践,AI for Science被视为第五种科研范式,GEO(生成式引擎优化)兴起,AI与医疗健康融合持续深化,例如“蚂蚁阿福”月活跃用户已突破3000万,日均交互量超千万次 [6] 机构观点与行业展望 - 申万宏源证券表示,2024年为基础大模型高速迭代期,2025年部分公司开始披露AI订单,新技术进入应用初期,2026年基础大模型能力提升将推动AI应用商业化加速,软件行业迎来市值快速提升阶段 [7] - 申万宏源证券认为,中国软件行业以乙方定制化为特色,软件供应商通过深度定制开发积累行业know-how,与大模型形成互补壁垒,AI应用落地更可能由软件公司实现 [7] - 方正证券表示,2026年将成为AI应用的投资元年,理由在于模型能力持续提升,算力成本持续下降,以及AI应用货币化进程加速 [7] - 中信建投认为,AI下游应用场景正加速进入商业化验证阶段,重点关注搜索&营销、Coding、多模态、Agent、AI for Science领域,相关公司商业化进程有望进一步加速 [7] 产品结构与投资布局 - 软件50ETF(159590)紧跟中证全指软件指数,旨在一键布局AI软件全产业链 [7] - 指数精选50只成分股,覆盖基础软件、应用软件、软件服务,其中约67%权重为应用软件,15%以上为AI相关领域,信息安全占10%,其余约7%为信息技术和基础软件 [7]
速递 | DeepSeek又发论文了,这可能是V4核心预告,普通人的3个机会来了?
文章核心观点 - DeepSeek发布了一篇关于Engram模块的论文,该技术旨在解决Transformer架构缺乏原生记忆查找机制的核心缺陷,通过引入一个可扩展的查表模块,让AI能高效检索固定知识,从而解放计算资源用于复杂推理,这可能预示着DeepSeek V4的核心技术方向 [1][4][9][11][62][63] 一、核心问题与Engram模块技术原理 - Transformer架构将所有任务混合处理,没有区分固定知识检索和动态推理,导致效率低下,例如回答“戴安娜王妃的全名是什么?”需要动用多层神经网络进行计算 [6][7][18][20] - Engram模块为AI增加了“电子脑”或“速查手册”,采用现代化的N-gram方法,将固定知识组合(如“张仲景”、“四大发明”)存储在巨大词表中,实现快速调用 [9][10][22] - 该模块通过哈希函数映射解决传统N-gram存储爆炸问题,并通过“门控机制”根据上下文判断来解决多义性问题(如区分“Apple”是公司还是水果) [26] 二、反直觉发现:记忆模块对推理能力的提升 - 实验发现,在固定总参数量和算力下,调整MoE(混合专家模型)与Engram的分配比例,性能呈现U型曲线,最优性能出现在将20-25%的稀疏参数分配给Engram记忆模块时 [29][30][31][42] - 这一规律表明记忆无法替代计算,计算也无法高效模拟记忆,两者配合是最优解,且该U型曲线在不同规模下稳定存在,是一个可扩展的规律 [32][34] - 训练了27B参数的Engram模型,与同规模纯MoE模型对比,不仅知识类任务提升,推理、代码、数学等需要深度思考的任务性能提升更大,核心原因是Engram解放了早期神经网络层,使其能专注于复杂推理链条 [35][36] 三、对AI行业的冲击 - **冲击1:稀疏化进入“双轴时代”**:行业竞争从仅在MoE上卷效率,扩展到“条件记忆”这第二条路,可能导致OpenAI、Anthropic等巨头需要重新设计架构以跟进 [38][39] - **冲击2:硬件生态可能变化**:Engram的查表操作是确定性的,可提前预取并与计算重叠,实验将1000亿参数的Engram表放在CPU内存中,在H800 GPU上跑推理,吞吐量仅下降3%,这降低了对昂贵GPU内存的依赖,可能影响英伟达等硬件厂商 [40][41][43][44][45] - **冲击3:长上下文能力实现飞跃**:在处理超长文档任务时,准确率从八成多提升到九成多,实现了质的飞跃,因为Engram将局部依赖建模卸载给查表,释放了注意力容量去关注全局上下文,这对法律合同、医疗病历、长篇代码理解等场景意义重大 [46][47][48][49] 四、对普通人的机会方向 - **方向1:知识密集型应用迎来爆发期**:Engram能大幅优化固定知识检索的成本和速度,例如医疗、法律、教育领域的问答系统,成本可能降至原来的十分之一,速度提升十倍以上 [51][52][64] - **方向2:多语言和垂直领域微调服务**:Engram对语义相同但形式不同的token做了压缩,使128K词表的有效规模减少23%,且门控机制在中英文上表现良好,降低了多语言应用门槛,适合开发小语种客服机器人、金融风控报告生成等定制化服务 [54][55][58][72] - **方向3:长上下文应用的爆发**:Engram在长文本任务上的提升是质的飞跃,结合32K上下文窗口,能有效覆盖合同审查、医疗诊断、代码审计、学术研究等需要处理长文档的场景,为To B领域的企业服务提供了切入机会 [56][57][59][60][71][72]
幻方量化去年收益率56.6% 为DeepSeek提供超级弹药
21世纪经济报道· 2026-01-14 10:15
幻方量化业绩表现 - 2025年收益均值达56.55%,在中国管理规模超百亿的量化私募中位列第二[1] - 近三年收益均值为85.15%,近五年收益均值为114.35%[2] - 2025年管理规模已超700亿元人民币,稳居国内私募量化投资领域第一梯队[1][2] 公司收入与资金实力 - 据业内人士估算,基于1%管理费和20%业绩提成,幻方量化去年的强劲表现可能为其带来超过7亿美元的收入[4] - 公司创始团队从2008年开始使用机器学习等技术探索全自动量化交易,2017年全面应用深度学习技术进行交易[2] - 梁文锋持有公司多数股权,并已停止为基金引入外部资金,进一步积累了充裕的资金弹药[4] 对DeepSeek的资金支持 - 幻方量化的丰厚收益能反哺DeepSeek,为其大模型研发提供坚强的资金支持[1][2] - DeepSeek的研究经费来源于幻方量化的研发预算[3] - DeepSeek V3模型的总训练成本预算在557万美元[5] 公司技术背景与基础设施 - 策略和开发团队由奥林匹克数学、物理、信息学金银牌得主,ACM金牌得主,AI领域大牛和领军人物,各学科博士等组成[2] - 2019年投资建成“萤火一号”AI训练平台,2021年投资建成“萤火二号”AI训练平台[3] - 2016年10月21日,公司第一份由深度学习生成的交易仓位上线执行[2] DeepSeek发展与大模型进展 - 2023年7月,幻方量化孵化出杭州深度求索人工智能基础技术研究有限公司(DeepSeek),正式进军通用人工智能[3] - 计划在2月春节前后发布新一代AI模型DeepSeek V4,V4模型是V3模型的迭代版,具备强大的编程能力[5] - 内部初步测试显示,V4在编程能力上超过了目前市场上的其他顶级模型,如Anthropic的Claude和OpenAI的GPT系列[5] 行业研发投入对比 - 智谱截至2025年上半年累计研发投入约44亿元人民币[5] - MiniMax截至2025年第三季度累计研发开支约4.5亿美元(约31.6亿元人民币)[5]
DeepSeek V4诞生前夜?梁文锋署名新论文发布
华尔街见闻· 2026-01-13 19:01
文章核心观点 - DeepSeek团队提出了一种名为“Engram(条件记忆)”的全新AI模型模块,旨在将静态知识的“记忆”功能从动态“计算”中剥离,通过类似查字典的快速检索方式,释放模型的计算资源以专注于复杂推理,这代表了Transformer架构的一次重大革新 [2][3] - 该技术不仅预期能显著提升模型在知识、逻辑、数学和代码等多方面的能力,还能通过“存算分离”大幅降低对昂贵GPU显存的依赖,预示着下一代大模型(如DeepSeek V4)的发展方向 [44][52][61] 现有Transformer架构的效率瓶颈 - 研究发现,传统Transformer模型在处理静态知识(如“戴安娜王妃”)时效率低下,需要动用多达6层网络进行复杂的矩阵运算来“重建”概念,这消耗了大量本应用于高级推理的计算资源 [8][9][11] - 这种将静态知识编码在神经网络权重中的“隐式记忆”机制,迫使模型将宝贵的参数容量和网络深度浪费在简单的模式匹配上,被视为一种算力浪费 [11] Engram(条件记忆)模块的技术原理 - Engram模块的核心是一个巨大的、可扩展的嵌入表,其灵感来源于NLP领域的经典“N-gram”概念,通过哈希索引实现O(1)时间复杂度的快速知识查找,无论知识库多大,查找速度几乎不变 [15][16][18] - 该模块解决了大规模知识存储的三大挑战:通过词表归一化使有效词表缩小了23%;采用多头哈希技术提高映射鲁棒性;设计上下文感知门控,根据当前语境动态决定是否采纳检索到的静态知识,避免歧义干扰 [19][20][21][25] 模型参数分配的优化发现 - 通过大规模实验,DeepSeek团队发现了模型参数分配的“U型曲线”,当将约20%-25%的稀疏参数预算分配给Engram模块,剩余75%-80%分配给MoE(混合专家)时,模型的验证集损失达到最低点 [30] - 这一“黄金分割点”表明,对于数百亿参数的大模型,单纯增加计算单元(MoE专家)已边际效益递减,必须引入专门的静态记忆模块来实现“存算平衡” [31] Engram带来的性能提升 - 在严格控制激活参数量(3.8B)和训练数据量(262B tokens)的对比实验中,Engram-27B模型在知识类任务上显著提升:MMLU提升3.4分,CMMLU提升4.0分 [38] - 出乎意料的是,该模型在逻辑、数学和代码等推理任务上也全面超越基线:BBH(综合推理)提升5.0分,MATH(数学)提升2.4分,HumanEval(代码生成)提升3.0分,ARC-Challenge(复杂推理)提升3.7分 [39][40] 性能提升的内在机制 - 性能的全面提升归因于“有效深度”理论:Engram模块在模型早期(如第2层)就完成了静态知识检索,释放了后续网络层和注意力头,使其能全神贯注于复杂的全局推理、长程逻辑构建等高级任务 [41][42] - Engram的本质是通过“分流”记忆杂活,让模型的“大脑”专注于更高维度的思考,而非替代推理 [43] 工程与成本优势:存算分离 - Engram模块实现了彻底的“存算分离”,其查表逻辑是确定性的,允许在文本输入时即刻预知所需知识的位置 [48] - 这一特性使得庞大的Engram词表(可达千亿参数)可以被卸载到廉价的CPU内存甚至NVMe SSD上,通过异步预取技术,即使挂载100B参数的Engram表到CPU内存,相比纯GPU推理,吞吐量下降不到3% [49][50][51] - 这打破了当前AI对昂贵GPU显存(如HBM)的依赖,意味着模型的“记忆容量”可以低成本无限扩展 [52] 在长文本处理上的优势 - 在长文本处理中,Engram接管了局部信息依赖,使注意力机制能更有效地捕捉全局信息和长程关联 [55][56] - 在RULER基准测试中,Engram-27B在Multi-Query NIAH(多重针大海捞针)任务上从MoE基线的84.2分飙升至97.0分,Variable Tracking(变量追踪)从77.0分提升至89.0分 [57][58][60] 对DeepSeek V4及行业未来的展望 - 文章推测,计划于2月(春节前后)发布的DeepSeek V4很可能集成Engram技术,从而拥有更大的知识库、更强的逻辑推理和更低的推理成本 [5][61][64] - 这标志着AI行业从单纯“卷算力”、“堆参数”向架构创新转变,中国大模型公司正在重新定义下一代AI的竞赛规则 [65]
DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块
金融界· 2026-01-13 12:38
论文核心研究成果 - 公司发布与北京大学联合完成的论文,提出“条件记忆”作为下一代稀疏大模型中不可或缺的核心建模原语 [1][4] - 论文核心洞察指出,大模型承担着组合推理与静态知识检索两类性质迥异的任务,而现有Transformer架构缺乏原生知识查找机制,导致调用固定知识时仍需低效计算,耗时且占用资源 [4] - 公司团队提出通过名为Engram的条件记忆模块来优化神经计算(MoE)与静态记忆之间的权衡关系,旨在为大模型实现“分工优化”,由Engram模块负责固定知识存储,推理模块专注复杂思考 [5] - 团队发现了“U型缩放定律”,表明在MoE专家与Engram记忆之间进行混合稀疏容量分配,效果显著优于纯MoE基准模型 [5] - 尽管记忆模块设计初衷是提升知识检索效率,但团队在通用推理、代码及数学等领域均观察到更为显著的性能提升 [5] 下一代模型V4的行业预期 - 结合此前“DeepSeek下一代旗舰模型V4将于春节前后发布”的爆料,业内普遍猜测近期连续披露的研究成果或已勾勒出V4模型的核心研究路线图 [1] - 公司在论文中强调条件记忆将成为下一代稀疏模型的核心建模原语,让行业进一步猜测该技术或正是DeepSeek V4模型的核心技术架构 [5] - 此前报道称,公司计划于2月发布新一代旗舰模型V4,内部初步测试显示其编程能力已超越市场现有顶级模型,但发布计划可能根据实际情况调整 [6] - 自2024年底发布V3模型后,其下一代旗舰模型备受行业关注,去年底推出的V3.2小版本更新曾在多个基准测试中超越OpenAI的GPT-5及Google的Gemini 3.0 Pro [6] - 业内普遍认为,V4模型的正式推出有望成为行业焦点事件 [6]
梁文锋署名,DeepSeek论文上新
第一财经资讯· 2026-01-13 11:41
公司研究:深度求索(DeepSeek)技术进展与产品规划 - 公司于1月12日晚发布与北京大学合作完成的新论文,聚焦大模型的条件记忆模块[2] - 论文核心观点认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语[2][7] - 论文作者包括公司创始人梁文锋,论文名称为《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》[5] 技术架构创新:条件记忆与Engram模块 - 论文核心观察指出,大模型包含两种任务:需要深度动态计算的组合推理和检索静态知识[5] - 现有Transformer架构缺乏原生知识查找机制,检索静态知识时需浪费算力重新推导,效率低下[5] - 为解决此问题,团队引入条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算(MoE)与静态记忆(Engram)之间的权衡[5] - 团队发现了U型缩放定律,表明MoE专家和Engram记忆之间的混合稀疏容量分配严格优于纯MoE基准模型[6] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益[6] - 技术本质是给大模型做“分工优化”,让专门模块处理固定知识(记忆本)和复杂思考(推理模块),并按最佳比例分配资源,使模型更高效[6] 产品路线与市场预期 - 结合近期研究,业内猜测此次论文揭示的技术或许是公司下一代大模型DeepSeek V4的研究路线图[5] - 有行业人士猜测,此次提出的条件记忆或许就是下一代大模型DeepSeek V4的技术架构[7] - 此前有爆料称,DeepSeek下一代大模型V4将在春节前后发布[5] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型[7] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本,并提及该版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro[7] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点[7]
DeepSeek论文上新!下一代大模型实现“记忆分离”,V4不远了?
第一财经资讯· 2026-01-13 11:32
公司技术研究进展 - 公司于1月12日晚发布了一篇与北京大学合作完成的新论文,聚焦大模型的条件记忆模块 [4] - 论文名称为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》,作者列包含公司创始人梁文锋 [4] - 论文核心观察是,大模型包含需要深度动态计算的组合推理和检索静态知识两种性质完全不同的任务,而现有Transformer架构缺乏原生知识查找机制,导致效率低下 [4] - 为解决该问题,团队引入了条件记忆作为补充的稀疏性维度,并通过Engram条件记忆模块实现,以优化神经计算与静态记忆之间的权衡关系 [4] - 团队发现了U型缩放定律,表明混合稀疏容量分配严格优于纯MoE基准模型 [5] - 尽管记忆模块直观上有助于知识检索,但团队在通用推理、代码和数学领域观察到了更为显著的收益 [5] - 论文本质是对大模型进行“分工优化”,让专门模块处理固定知识和复杂推理,并按最佳比例分配资源,旨在提升模型效率与性能 [6] - 公司在论文结论中认为,条件记忆将成为下一代稀疏大模型中不可或缺的核心建模原语 [1][6] 下一代模型发布预期 - 此前有爆料称公司下一代大模型V4将在春节前后发布,结合近期研究,业内猜测此次论文提出的条件记忆可能就是V4的技术架构路线图 [4][6] - 此前有报道称,公司将于2月发布新一代旗舰模型DeepSeek V4,且内部初步测试表明V4在编程能力上超过了市场上的其他顶级模型 [6] - 报道提及发布计划可能会根据实际情况进行调整,公司目前未对相关消息进行回应 [6] - 自2024年底发布V3模型后,公司下一代旗舰模型一直未出,去年底发布了小更新V3.2版本 [6] - V3.2版本在多个基准测试中超过了OpenAI的GPT-5和Google的Gemini 3.0 Pro [6] - 行业一直在观望公司的旗舰模型,V4的推出或将成为业界关注的焦点 [6]