Workflow
Seek .(SKLTY)
icon
搜索文档
摩根资产管理认为中国科技领域将迎来“更多DeepSeek时刻”
新浪财经· 2026-01-14 15:58
文章核心观点 - 摩根资产管理认为中国科技股将继续受益于技术突破 中国正加大力度创建更多类似DeepSeek的公司 [1] - 该公司认为中国在科技领域仍然有很多机会 [1] 行业展望与机会 - 策略师指出市场将会看到越来越多机器人技术的进步 [1] - 策略师预测未来将出现更多类似DeepSeek的突破性时刻 [1]
PriceSeek提醒:雅化锂矿运回促氢氧化锂供应增
新浪财经· 2026-01-14 12:09
公司动态 - 雅化集团表示其位于津巴布韦的锂矿已实现批量运回国内并已用于生产 [1][4] 行业影响分析 - 雅化集团从津巴布韦批量运回锂矿用于生产氢氧化锂,表明其原料供应趋于稳定且有所增加 [2][5] - 原料供应增加可能提升雅化集团的氢氧化锂产量,导致市场对氢氧化锂的供应预期增强 [2][5] - 该事件对氢氧化锂现货价格构成下行压力,因为供应增加可能缓解市场短缺局面,并抑制价格上涨动力 [2][5] - 该事件被评析为对氢氧化锂价格的一般利空(评分为-1),因实质性供应增量对价格有负面影响 [2][5] 定价机制说明 - 生意社基准价是基于价格大数据与价格模型产生的交易指导价,可用于确定指定日期或指定周期的平均结算价 [2][5] - 大宗商品定价公式为:结算价 = 生意社基准价 × K + C,其中K为调整系数(包括账期成本等因素),C为升贴水(包括物流成本、品牌价差、区域价差等因素) [2][3][5][6]
幻方量化去年收益率56.6%,为DeepSeek提供超级弹药
21世纪经济报道· 2026-01-14 10:16
幻方量化业绩表现 - 2025年收益均值达56.55%,在中国管理规模超百亿的量化私募中位列第二[2] - 近三年收益均值为85.15%,近五年收益均值为114.35%[2] - 2025年管理规模已超700亿元人民币,稳居国内私募量化投资领域第一梯队[2] 幻方量化业务与团队 - 公司是一家AI量化交易公司,成立于2015年,持续投入AI算法研究[2] - 创始团队自2008年开始使用机器学习技术探索全自动量化交易[3] - 2016年10月第一份由深度学习生成的交易仓位上线,2017年全面应用深度学习技术进行交易[3] - 策略和开发团队由多学科顶尖人才组成,包括奥赛金牌得主、AI领域专家及各学科博士[2] 幻方量化技术投入与孵化 - 2019年投资建成“萤火一号”AI训练平台,2021年投资建成“萤火二号”AI训练平台[4] - 2023年7月孵化出杭州深度求索人工智能基础技术研究有限公司,正式进军通用人工智能[4] - 公司创始人与大股东梁文锋持有DeepSeek多数股权,并停止为基金引入外部资金[4] 幻方量化收入估算与资金反哺 - 据业内人士估算,基于1%管理费和20%业绩提成,公司去年强劲表现可能带来超过7亿美元收入[6] - 幻方量化的丰厚收益能反哺DeepSeek,为其大模型研发提供资金支持[2][5] DeepSeek大模型业务 - DeepSeek的研究经费来源于幻方量化的研发预算[4] - DeepSeek V3模型的总训练成本预算在557万美元[7] - 计划在2月春节前后发布新一代AI模型DeepSeek V4,内部测试显示其在编程能力上超过Claude和GPT系列[7] 行业研发投入对比 - 智谱截至2025年上半年累计研发投入约44亿元人民币[7] - MiniMax截至2025年第三季度累计研发开支约4.5亿美元[7]
幻方量化去年收益率56.6% 为DeepSeek提供超级弹药
21世纪经济报道· 2026-01-14 10:15
幻方量化业绩表现 - 2025年收益均值达56.55%,在中国管理规模超百亿的量化私募中位列第二[1] - 近三年收益均值为85.15%,近五年收益均值为114.35%[2] - 2025年管理规模已超700亿元人民币,稳居国内私募量化投资领域第一梯队[1][2] 公司收入与资金实力 - 据业内人士估算,基于1%管理费和20%业绩提成,幻方量化去年的强劲表现可能为其带来超过7亿美元的收入[4] - 公司创始团队从2008年开始使用机器学习等技术探索全自动量化交易,2017年全面应用深度学习技术进行交易[2] - 梁文锋持有公司多数股权,并已停止为基金引入外部资金,进一步积累了充裕的资金弹药[4] 对DeepSeek的资金支持 - 幻方量化的丰厚收益能反哺DeepSeek,为其大模型研发提供坚强的资金支持[1][2] - DeepSeek的研究经费来源于幻方量化的研发预算[3] - DeepSeek V3模型的总训练成本预算在557万美元[5] 公司技术背景与基础设施 - 策略和开发团队由奥林匹克数学、物理、信息学金银牌得主,ACM金牌得主,AI领域大牛和领军人物,各学科博士等组成[2] - 2019年投资建成“萤火一号”AI训练平台,2021年投资建成“萤火二号”AI训练平台[3] - 2016年10月21日,公司第一份由深度学习生成的交易仓位上线执行[2] DeepSeek发展与大模型进展 - 2023年7月,幻方量化孵化出杭州深度求索人工智能基础技术研究有限公司(DeepSeek),正式进军通用人工智能[3] - 计划在2月春节前后发布新一代AI模型DeepSeek V4,V4模型是V3模型的迭代版,具备强大的编程能力[5] - 内部初步测试显示,V4在编程能力上超过了目前市场上的其他顶级模型,如Anthropic的Claude和OpenAI的GPT系列[5] 行业研发投入对比 - 智谱截至2025年上半年累计研发投入约44亿元人民币[5] - MiniMax截至2025年第三季度累计研发开支约4.5亿美元(约31.6亿元人民币)[5]
DeepSeek论文披露全新模型机制,SSD等存储需求有望再进一步,龙头还发布炸裂业绩
选股宝· 2026-01-14 07:24
论文技术要点 - DeepSeek发布新论文提出“条件内存”作为大语言模型稀疏性的新维度 [1] - 论文通过引入Engram模块实现条件记忆 该模块类似“字典”功能 [1] - 现有Transformer架构缺乏原生知识查找机制 需通过昂贵计算模拟检索 浪费模型深度 [1] - 条件记忆与MoE(混合专家模型)的条件计算形成互补 [1] - Engram模块在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现 [1] Engram模块技术细节 - Engram模块是一个巨大的、可扩展的嵌入表 [2] - 其功能是给Transformer增加一个外接记忆库 [2] - 模块将当前token附近的一小段内容 以快速、省参数的方式在超大的静态记忆表中查找对应内容 [2] - 采用分层存储设计 将高频访问的嵌入缓存于更快的存储介质中(如GPU HBM或主机DRAM) [2] - 将大量低频的长尾模式存放在容量更大但速度较慢的存储介质中(如SSD) [2] - 分层设计使Engram能够扩展到极大规模的记忆容量 同时将有效访问延迟的影响保持在最低水平 [2] 存储行业展望 - 未来2年NAND行业资本开支可能有限 头部厂商在扩产方面可能保持相对克制的水平 [2] - 三星、美光与SK海力士的资本开支有望持续向HBM倾斜而非NAND [2] - 未来AI应用有望推动SSD用量保持高速增长态势 [2] - 叠加全行业资本开支可能有限 NAND与SSD供不应求有望持续 迎来较长的景气周期 [2] 相关公司动态 - 佰维存储预告年报净利润8.5亿元-10亿元 同比增长427.19%-520.22% [2] - 江波龙已推出多款高速企业级eSSD产品 覆盖480GB至7.68TB的主流容量范围 [3]
DeepSeek母公司去年进账50亿,够烧2380个R1
36氪· 2026-01-13 21:02
公司核心情况 - 自R1模型发布一年以来,DeepSeek未进行任何新融资,也几乎没有商业化的动作 [1] - 公司是全球唯一一家未接受外部融资且不隶属于任何大型科技公司的AI实验室 [11] - 公司的研究经费完全来自其母公司幻方量化的研发预算,不受外部股权结构或损益预期的约束 [6][14][15] 母公司财务与业绩表现 - 母公司幻方量化在2025年业绩表现极为突出,旗下基金收益率普遍在55%以上 [3] - 据彭博社报道,幻方量化在2025年可能为创始人梁文锋赚取了超过7亿美元(约50亿人民币)的利润 [2][8] - 公司管理的资产规模超过700亿人民币,2025年平均收益率达到56.6%,在百亿级量化基金中位居第二 [5][7] 研发投入与成本效率 - DeepSeek模型训练成本极低,V3训练仅花费557.6万美元,R1训练仅花费29.4万美元 [6] - 按此成本计算,幻方量化2025年的收入足以再生产125个V3模型或2380个R1模型 [6] - 公司持续改善训练效率,拥有充足的现金储备支持其AGI研究 [6] 研发战略与学术成果 - 公司战略纯粹,专注于AGI研究,未将资源大规模转向需要高并发推理的商业应用产品 [9] - 公司持续产出高水平学术论文,团队稳定,R1论文的18位核心贡献者在发表近一年后仍全部在职 [2][29] - 在总计100多位的论文作者中,仅有5位标注已离开团队,甚至出现人才回流的情况 [30][31][33] 行业对比与商业模式优势 - 与OpenAI等积极寻求商业化(如引入广告、获取芯片厂商投资)的同行不同,DeepSeek坚持非商业化研究路径 [6] - 公司背靠幻方量化成熟的量化投资商业模式,拥有稳定且强大的内部现金流支持,无需为短期投资回报担忧 [6][15][20] - 这种模式结合了谷歌(有成熟业务支撑)和OpenAI(AI原生)的优势,使公司在AGI研发上拥有更大的战略定力和容错空间 [26] 市场间接影响 - DeepSeek发布的“硬件设计建议”等技术动态,会直接影响相关国产芯片公司的股价,例如寒武纪在V3.2发布后宣布完成适配,次日股价跳涨近5% [34][36][39] - 部分投资者将DeepSeek的技术论文作为投资半导体行业的研究报告来参考 [34]
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
新浪财经· 2026-01-13 20:33
核心观点 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”的新模型训练技术,旨在绕过GPU内存限制,实现参数扩展并提升成本效率 [1][3] - 该技术通过将计算与存储解耦,提升模型处理长上下文和复杂推理的效率,并在一个270亿参数的模型中验证了其有效性,使主要行业基准测试表现提升几个百分点 [4] - 行业观察指出,DeepSeek凭借其低成本、高效率的模型(如DeepSeek-R1)在全球市场,特别是新兴市场快速普及,正对美国AI公司构成竞争压力,并预计将在2025年2月中旬发布具备强大编程能力的新V4模型 [6][7] 技术突破 - 提出“基于可扩展查找的条件记忆”技术,命名为“Engram”,用以解决扩大AI模型规模时GPU高带宽内存容量有限的关键瓶颈 [3][4] - 该技术将计算与存储“解耦”,让模型更高效地“查找”基础信息,从而节省“序列深度”以用于更高层次推理 [3][4] - 在一个拥有270亿个参数的模型中验证,使主要行业基准测试的表现提升了几个百分点,并为执行计算需求更高的复杂推理保留了更多容量 [4] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,其潜在影响被比作他们自己开发的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司动态与市场影响 - DeepSeek创始人梁文锋与北京大学研究人员共同署名发表该技术论文,论文列出了14位共同作者 [1][6] - 公司去年年初发布的DeepSeek-R1大模型,使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,但实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁布拉德·史密斯警告,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势,并指出DeepSeek的技术在非洲等新兴市场快速普及 [6][7] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 外界猜测公司将在2025年春节(2月中旬)之前发布一款重要的新模型,据称是一款具备强大编程能力的新V4模型 [1][7] 行业背景与竞争格局 - 香港《南华早报》指出,HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国的三星电子和SK海力士以及美国的美光科技等行业领军者落后数年 [4] - 此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - 行业中最大的模型拥有数万亿个参数 [6] - 在过去一年中,DeepSeek一直是中国AI领域创新的典范 [1]
梁文锋署名DeepSeek新论文,“突破GPU内存限制”
观察者网· 2026-01-13 20:28
公司技术进展 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”(记忆痕迹)的“条件记忆”新技术 [1][2] - 该技术旨在通过将计算与存储“解耦”,绕过GPU高带宽内存(HBM)容量限制,解决扩大AI模型规模时的关键瓶颈 [2][3] - 新技术能够提升模型在处理长上下文时的效率,这是将AI聊天机器人转变为现实世界中有用代理的主要挑战之一 [3] - 研究人员在一个拥有270亿个参数的模型中验证了该技术,使主要行业基准测试的表现提升了几个百分点,并为执行更复杂的推理保留了更多容量 [3] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,并将其潜在影响比作此前开发的、已被其他中国竞争对手采用的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司发展动态与行业地位 - 外界猜测DeepSeek将在今年春节(2月中旬)之前发布一款重要的新模型 [1][7] - 美国硅谷媒体The Information报道称,DeepSeek预计将在2月中旬推出一款具备强大编程能力的新V4模型 [8] - 去年年初,DeepSeek发布的DeepSeek-R1大模型使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,却实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁警告称,在争夺西方以外用户的竞争中,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势 [6] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 微软总裁指出,中国AI初创公司DeepSeek的技术在非洲等新兴市场快速普及,凸显了美国公司面临的全球竞争,并称中国现在拥有不止一个具有竞争力的开源模型 [7] 行业背景与挑战 - DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国三星、SK海力士及美国美光科技等行业领军者落后数年 [3] - 行业中最大的模型拥有数万亿个参数 [6]
DeepSeek开源Engram,如何做到推理损失仅3%?
钛媒体APP· 2026-01-13 16:44
公司近期技术发布 - 公司于1月13日在GitHub开源名为Engram的模块,并发布与北京大学联合撰写的论文,阐述了一种新的大模型稀疏化方向:条件存储(Conditional Memory)[1] - 这是继1月1日发布关于mHC架构的论文后,公司的又一次重要技术发布,两篇论文均体现了公司通过架构与方法论创新来降低算力成本、追求性价比的核心方向[4] - 公司创始人兼CEO梁文锋在两篇论文中均署名,并列于作者最后[4] Engram技术原理与设计 - Engram是一个可微分、可训练、原生嵌入模型结构的组件,其核心设计是将记忆性负载从主干计算中剥离,通过高速检索模块直接调用稳定且高频出现的知识,以规避低效的反复计算[4] - 该模块首先提供确定性检索:模型基于当前token和前文形成的N-gram,通过哈希映射直接从超大规模的静态嵌入表中取出对应向量,无需复杂神经计算,速度更快、路径稳定[4] - 随后,Engram会通过引入轻量化门控机制,由当前层的隐藏状态来判断检索到的记忆是否适合当前语境,避免生硬注入,从而优化输出表现[6] - 实验表明,该机制在处理时间、专有名词等固定模式时高度活跃,而在自由生成和复杂推理时几乎不介入,这强化了记忆功能的同时,避免了不合时宜的幻觉出现[6] 公司提出的新架构维度 - 公司将大模型能力拆分为三个相互独立又协作的维度:决定逻辑与抽象能力的模型深度、以MoE为代表的计算稀疏性(减少每次激活的计算量)、以及Engram引入的存储稀疏性(条件记忆)[6] - 公司通过U型扩展定律解决了记忆模块可能影响计算与推理性能的平衡问题,在总参数和算力预算固定的情况下,系统调整MoE与Engram的比例,得出将20%至25%的稀疏参数分配给Engram是最优平衡点[6] - 测试数据显示,即便挂载规模高达千亿参数的Engram记忆库,推理吞吐损失也能控制在3%以内[7] 行业竞争与公司未来产品 - 据The Information援引知情人士消息,公司预计将在今年中国春节前后发布最新的V4模型,核心突破在于超长代码提示词的处理与解析能力,以及全流程训练中数据模式的理解力[7] - 新模型不仅推理性能将大幅提升,更擅长处理复杂任务,其编码能力是主打方向,内部初步测试结果据称已超越了Anthropic的最强编程模型Claude[7] - 竞争对手Anthropic为守护编程能力优势和入口通道,近期已陆续切断Claude Code的第三方平台入口,并于1月12日发布主打办公场景Agent落地的产品Cowork,可自动帮助用户完成制作PPT、整理邮件等工作[7] - 市场期待即将到来的公司旗舰新品能再次带来“DeepSeek春节冲击波”[7]
DeepSeek开源大模型记忆模块,梁文锋署名新论文,下一代稀疏模型提前剧透
36氪· 2026-01-13 15:14
核心观点 - DeepSeek团队提出了一种名为“条件记忆”(Conditional Memory)的全新建模范式,并给出了具体实现方案Engram模块,旨在为Transformer架构补上原生的知识查找机制 [1] - 该研究认为,语言建模包含需要深度动态计算的组合推理和检索静态知识两种不同性质的任务,而现有Transformer缺乏高效的原生知识查找机制,导致计算资源浪费 [4] - 通过将部分稀疏参数预算从混合专家(MoE)重新分配给Engram记忆模块,可以在固定计算预算下显著提升模型性能,形成一条U型最优曲线 [15][17] - 实验表明,在27B参数规模下,采用Engram的模型在知识、通用推理、代码和数学等多个领域的基准测试中均显著超越同规模纯MoE模型,甚至有效“加深”了网络推理深度 [21][23] - Engram的确定性寻址机制支持存储与计算的解耦,允许将海量参数表卸载至CPU内存,在推理时带来可忽略的额外开销,实现了硬件感知的高效设计 [27][29][31] 技术原理与设计 - **核心问题识别**:现有Transformer模型在识别如“Diana, Princess of Wales”这类实体时,需要消耗多达6层注意力进行逐层特征拼凑,本质是用昂贵的运行时计算来重建静态查找表,浪费了可用于高层推理的网络深度 [4][5] - **解决方案**:回归查表思想,将经典的N-gram方法嵌入Transformer,通过哈希查找以O(1)时间复杂度捕获局部依赖和静态知识 [6] - **关键创新 - Engram模块**:在Transformer层间插入Engram模块,对当前token及前几个token组成的N-gram进行哈希查找,从一个巨大的嵌入表中直接取出对应向量 [6] - **解决传统N-gram痛点**: - 通过压缩tokenizer,将语义相同但形式不同的token归为一类,使128k词表的有效规模减少23% [11] - 使用多个哈希函数将N-gram映射到固定大小的嵌入表,解决了存储爆炸问题,并通过多哈希头减少查找冲突 [11] - **上下文感知门控**:引入门控机制,用当前隐藏状态作为Query来评估检索到的记忆与上下文的匹配度,自动屏蔽噪声,实现静态模式调用与动态计算的灵活切换 [8] 实验与性能分析 - **稀疏性分配研究**:固定总参数量和每token激活参数量,在MoE专家和Engram记忆间重新分配参数预算,实验得出一条U型曲线 [15] - 纯MoE并非最优,将约20%到25%的稀疏参数预算分给Engram时,模型验证集loss最低 [17] - 在100亿参数规模下,最优配置比纯MoE基线的loss降低0.0139 [17] - 最优分配点在不同计算预算下稳定在ρ=75%到80%之间(即20%-25%预算给Engram) [17] - **27B规模模型对比**:在激活参数量均为38亿、训练token均为2620亿的条件下进行对比 [18] - **Engram-27B**:总参26.7B,分配5.7B参数给Engram记忆模块 [18][22] - **Engram-40B**:总参39.5B,Engram记忆参数增至18.5B [18][22] - **性能提升结果**:与纯MoE-27B模型相比,Engram-27B在多项基准测试中取得显著提升 [21][22] - 知识密集型任务:MMLU提升3分(从57.4到60.4),CMMLU提升4.0分(从57.9到61.9),TriviaQA提升1.9分(从48.8到50.7) [21] - 通用推理任务:BBH大幅提升5.0分(从50.9到55.9),ARC-Challenge提升3.7分(从70.1到73.8),DROP提升3.3分(从55.7到59.0) [21] - 代码数学任务:HumanEval提升3.0分(从37.8到40.8),MATH提升2.4分(从28.3到30.7),GSM8K提升2.2分(从58.4到60.6) [21] - **性能提升原因分析**:Engram让模型早期层无需做特征组合的“苦力活”,从而“加深”了网络有效深度 [23] - KL散度曲线显示Engram模型预测收敛更快 [23] - CKA相似度分析表明,Engram-27B第5层的表征与MoE基线第12层的表征最相似 [23] - **扩展性与长上下文**:Engram-40B进一步增加记忆参数后,大部分任务性能持续提升,且训练后期损失仍在下降,说明记忆容量未饱和 [25] - 长上下文场景提升显著:在RULER测试集上,Multi-Query NIAH准确率从84.2跃升至97.0,Variable Tracking从77.0提升至89.0 [25][26] 工程实现与效率 - **训练阶段**:巨大的词表参数(高达100B)需要拆分到多个GPU上,并通过All-to-All通信机制传递记忆片段 [27] - **推理优化**:利用Engram查找索引的确定性,可将巨大的嵌入表卸载到CPU内存,并通过PCIe异步预取实现通信与计算的重叠 [29] - 在H800 GPU上测试,为一个4B密集模型增加1000亿参数的CPU卸载Engram表,吞吐量从9031 token/s降至8858 token/s,额外开销在3%以内 [29] - 8B密集模型增加后,吞吐量从6315 token/s降至6140 token/s,开销同样低于3% [29] - **缓存策略**:利用N-gram访问遵循Zipfian分布的特点,可设计多级缓存(高频放GPU显存、中频放CPU内存、长尾放NVMe SSD),进一步压缩有效延迟 [30]