Seek .(SKLTY)
搜索文档
财经观察:DeepSeek一周年,中美AI之路再对比
环球时报· 2026-01-15 06:51
中国人工智能行业发展态势 - 中国AI初创公司深度求索预计将于2月中旬推出下一代AI模型V4,其编码能力表现可能优于美国公司Anthropic的Claude和OpenAI的GPT系列 [1] - 2025年一年时间,中国缩小了与美国在人工智能领域的差距,中美大模型已跑出两条不同的主航道 [1][4] - 中国的开源人工智能模型占全球AI技术使用总量的近30%,中国的开源模式正在赢得世界各地开发者的信任 [3] 中美AI发展路径对比 - 美国走的是“前沿能力持续拉高+闭源模型+平台化产品”路线,将最强模型封装成ChatGPT等超级入口,目标是把智能变成可控、可收费、可治理的基础设施 [4] - 中国走的则是“开源权重+极致工程效率+快速产业扩散”路线,不追求长期垄断最强模型,而是把足够强的能力尽快做成可复制、可落地的工程资产 [4] - 若只看“最强模型的前沿能力”,美国仍领先数月到一年级别;若看“工程效率、成本和落地速度”,中国几乎没有时间差,局部甚至更快;若看“产品平台、生态与规则制定”,美国依然领先一到两年 [5] 中国AI公司的竞争力与进展 - 深度求索的R1大模型仅用两个月完成训练,成本仅为美国公司所花费金额的一小部分,但效果与OpenAI的ChatGPT和Meta的Llama大模型不相上下 [2] - 阿里巴巴早在2018年就启动了AI大模型研发,截至目前已开源近400个模型,全球衍生模型超过18万个,下载量突破7亿次 [3] - 更多的中国大模型公司已紧跟最新AI发展步伐,跻身全球大模型第一梯队 [2] AI技术应用与落地前景 - 2025年,AI改变最大的地方是写代码,未来信息接收、创造和处理会更多地被AI替代 [8] - 中国在“工程落地速度”和“供应链完整度”方面具有优势,在激光雷达、高能量密度电池和高性价比电机组件上几乎占据半壁江山,机器人迭代快且具备大规模量产的潜力和成本优势 [7] - 下一个“深度求索时刻”可能出现在人形机器人+大模型、工业/能源/供应链大模型、低成本推理与端侧模型突破等方向 [10] AI产业规模化与市场影响 - AI潮玩品牌珞博智能将2026年销售目标定为100万台AI玩具,认为大模型技术成熟、供应链成本可控、消费者认知提升三大条件已具备 [10] - “100万台”是AI玩具行业的里程碑,海量高质量的交互数据将极大加速模型“数据飞轮”的运转,形成良性循环 [11] - “100万台”意味着市场教育完成,证明AI玩具能够真正融入日常生活,成为提供情感价值的“生活必需品” [11] 对AGI(通用人工智能)发展的看法 - 特斯拉CEO马斯克认为AGI最快可能于2026年出现,2030年前AI能力将超越人类总和 [9] - 从技术角度看,AGI最先逼近的很可能还是美国头部实验室体系,其算力、工程与前沿探索优势明显 [9] - 中国更容易在真实社会中快速规模化部署AI,将其嵌入产业、政务和公共服务,让AI在现实系统里长时间运行并积累优势 [9]
摩根资产管理认为中国科技领域将迎来“更多DeepSeek时刻”
新浪财经· 2026-01-14 15:58
文章核心观点 - 摩根资产管理认为中国科技股将继续受益于技术突破 中国正加大力度创建更多类似DeepSeek的公司 [1] - 该公司认为中国在科技领域仍然有很多机会 [1] 行业展望与机会 - 策略师指出市场将会看到越来越多机器人技术的进步 [1] - 策略师预测未来将出现更多类似DeepSeek的突破性时刻 [1]
PriceSeek提醒:雅化锂矿运回促氢氧化锂供应增
新浪财经· 2026-01-14 12:09
公司动态 - 雅化集团表示其位于津巴布韦的锂矿已实现批量运回国内并已用于生产 [1][4] 行业影响分析 - 雅化集团从津巴布韦批量运回锂矿用于生产氢氧化锂,表明其原料供应趋于稳定且有所增加 [2][5] - 原料供应增加可能提升雅化集团的氢氧化锂产量,导致市场对氢氧化锂的供应预期增强 [2][5] - 该事件对氢氧化锂现货价格构成下行压力,因为供应增加可能缓解市场短缺局面,并抑制价格上涨动力 [2][5] - 该事件被评析为对氢氧化锂价格的一般利空(评分为-1),因实质性供应增量对价格有负面影响 [2][5] 定价机制说明 - 生意社基准价是基于价格大数据与价格模型产生的交易指导价,可用于确定指定日期或指定周期的平均结算价 [2][5] - 大宗商品定价公式为:结算价 = 生意社基准价 × K + C,其中K为调整系数(包括账期成本等因素),C为升贴水(包括物流成本、品牌价差、区域价差等因素) [2][3][5][6]
幻方量化去年收益率56.6%,为DeepSeek提供超级弹药
21世纪经济报道· 2026-01-14 10:16
幻方量化业绩表现 - 2025年收益均值达56.55%,在中国管理规模超百亿的量化私募中位列第二[2] - 近三年收益均值为85.15%,近五年收益均值为114.35%[2] - 2025年管理规模已超700亿元人民币,稳居国内私募量化投资领域第一梯队[2] 幻方量化业务与团队 - 公司是一家AI量化交易公司,成立于2015年,持续投入AI算法研究[2] - 创始团队自2008年开始使用机器学习技术探索全自动量化交易[3] - 2016年10月第一份由深度学习生成的交易仓位上线,2017年全面应用深度学习技术进行交易[3] - 策略和开发团队由多学科顶尖人才组成,包括奥赛金牌得主、AI领域专家及各学科博士[2] 幻方量化技术投入与孵化 - 2019年投资建成“萤火一号”AI训练平台,2021年投资建成“萤火二号”AI训练平台[4] - 2023年7月孵化出杭州深度求索人工智能基础技术研究有限公司,正式进军通用人工智能[4] - 公司创始人与大股东梁文锋持有DeepSeek多数股权,并停止为基金引入外部资金[4] 幻方量化收入估算与资金反哺 - 据业内人士估算,基于1%管理费和20%业绩提成,公司去年强劲表现可能带来超过7亿美元收入[6] - 幻方量化的丰厚收益能反哺DeepSeek,为其大模型研发提供资金支持[2][5] DeepSeek大模型业务 - DeepSeek的研究经费来源于幻方量化的研发预算[4] - DeepSeek V3模型的总训练成本预算在557万美元[7] - 计划在2月春节前后发布新一代AI模型DeepSeek V4,内部测试显示其在编程能力上超过Claude和GPT系列[7] 行业研发投入对比 - 智谱截至2025年上半年累计研发投入约44亿元人民币[7] - MiniMax截至2025年第三季度累计研发开支约4.5亿美元[7]
幻方量化去年收益率56.6% 为DeepSeek提供超级弹药
21世纪经济报道· 2026-01-14 10:15
幻方量化业绩表现 - 2025年收益均值达56.55%,在中国管理规模超百亿的量化私募中位列第二[1] - 近三年收益均值为85.15%,近五年收益均值为114.35%[2] - 2025年管理规模已超700亿元人民币,稳居国内私募量化投资领域第一梯队[1][2] 公司收入与资金实力 - 据业内人士估算,基于1%管理费和20%业绩提成,幻方量化去年的强劲表现可能为其带来超过7亿美元的收入[4] - 公司创始团队从2008年开始使用机器学习等技术探索全自动量化交易,2017年全面应用深度学习技术进行交易[2] - 梁文锋持有公司多数股权,并已停止为基金引入外部资金,进一步积累了充裕的资金弹药[4] 对DeepSeek的资金支持 - 幻方量化的丰厚收益能反哺DeepSeek,为其大模型研发提供坚强的资金支持[1][2] - DeepSeek的研究经费来源于幻方量化的研发预算[3] - DeepSeek V3模型的总训练成本预算在557万美元[5] 公司技术背景与基础设施 - 策略和开发团队由奥林匹克数学、物理、信息学金银牌得主,ACM金牌得主,AI领域大牛和领军人物,各学科博士等组成[2] - 2019年投资建成“萤火一号”AI训练平台,2021年投资建成“萤火二号”AI训练平台[3] - 2016年10月21日,公司第一份由深度学习生成的交易仓位上线执行[2] DeepSeek发展与大模型进展 - 2023年7月,幻方量化孵化出杭州深度求索人工智能基础技术研究有限公司(DeepSeek),正式进军通用人工智能[3] - 计划在2月春节前后发布新一代AI模型DeepSeek V4,V4模型是V3模型的迭代版,具备强大的编程能力[5] - 内部初步测试显示,V4在编程能力上超过了目前市场上的其他顶级模型,如Anthropic的Claude和OpenAI的GPT系列[5] 行业研发投入对比 - 智谱截至2025年上半年累计研发投入约44亿元人民币[5] - MiniMax截至2025年第三季度累计研发开支约4.5亿美元(约31.6亿元人民币)[5]
DeepSeek论文披露全新模型机制,SSD等存储需求有望再进一步,龙头还发布炸裂业绩
选股宝· 2026-01-14 07:24
论文技术要点 - DeepSeek发布新论文提出“条件内存”作为大语言模型稀疏性的新维度 [1] - 论文通过引入Engram模块实现条件记忆 该模块类似“字典”功能 [1] - 现有Transformer架构缺乏原生知识查找机制 需通过昂贵计算模拟检索 浪费模型深度 [1] - 条件记忆与MoE(混合专家模型)的条件计算形成互补 [1] - Engram模块在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现 [1] Engram模块技术细节 - Engram模块是一个巨大的、可扩展的嵌入表 [2] - 其功能是给Transformer增加一个外接记忆库 [2] - 模块将当前token附近的一小段内容 以快速、省参数的方式在超大的静态记忆表中查找对应内容 [2] - 采用分层存储设计 将高频访问的嵌入缓存于更快的存储介质中(如GPU HBM或主机DRAM) [2] - 将大量低频的长尾模式存放在容量更大但速度较慢的存储介质中(如SSD) [2] - 分层设计使Engram能够扩展到极大规模的记忆容量 同时将有效访问延迟的影响保持在最低水平 [2] 存储行业展望 - 未来2年NAND行业资本开支可能有限 头部厂商在扩产方面可能保持相对克制的水平 [2] - 三星、美光与SK海力士的资本开支有望持续向HBM倾斜而非NAND [2] - 未来AI应用有望推动SSD用量保持高速增长态势 [2] - 叠加全行业资本开支可能有限 NAND与SSD供不应求有望持续 迎来较长的景气周期 [2] 相关公司动态 - 佰维存储预告年报净利润8.5亿元-10亿元 同比增长427.19%-520.22% [2] - 江波龙已推出多款高速企业级eSSD产品 覆盖480GB至7.68TB的主流容量范围 [3]
DeepSeek母公司去年进账50亿,够烧2380个R1
36氪· 2026-01-13 21:02
公司核心情况 - 自R1模型发布一年以来,DeepSeek未进行任何新融资,也几乎没有商业化的动作 [1] - 公司是全球唯一一家未接受外部融资且不隶属于任何大型科技公司的AI实验室 [11] - 公司的研究经费完全来自其母公司幻方量化的研发预算,不受外部股权结构或损益预期的约束 [6][14][15] 母公司财务与业绩表现 - 母公司幻方量化在2025年业绩表现极为突出,旗下基金收益率普遍在55%以上 [3] - 据彭博社报道,幻方量化在2025年可能为创始人梁文锋赚取了超过7亿美元(约50亿人民币)的利润 [2][8] - 公司管理的资产规模超过700亿人民币,2025年平均收益率达到56.6%,在百亿级量化基金中位居第二 [5][7] 研发投入与成本效率 - DeepSeek模型训练成本极低,V3训练仅花费557.6万美元,R1训练仅花费29.4万美元 [6] - 按此成本计算,幻方量化2025年的收入足以再生产125个V3模型或2380个R1模型 [6] - 公司持续改善训练效率,拥有充足的现金储备支持其AGI研究 [6] 研发战略与学术成果 - 公司战略纯粹,专注于AGI研究,未将资源大规模转向需要高并发推理的商业应用产品 [9] - 公司持续产出高水平学术论文,团队稳定,R1论文的18位核心贡献者在发表近一年后仍全部在职 [2][29] - 在总计100多位的论文作者中,仅有5位标注已离开团队,甚至出现人才回流的情况 [30][31][33] 行业对比与商业模式优势 - 与OpenAI等积极寻求商业化(如引入广告、获取芯片厂商投资)的同行不同,DeepSeek坚持非商业化研究路径 [6] - 公司背靠幻方量化成熟的量化投资商业模式,拥有稳定且强大的内部现金流支持,无需为短期投资回报担忧 [6][15][20] - 这种模式结合了谷歌(有成熟业务支撑)和OpenAI(AI原生)的优势,使公司在AGI研发上拥有更大的战略定力和容错空间 [26] 市场间接影响 - DeepSeek发布的“硬件设计建议”等技术动态,会直接影响相关国产芯片公司的股价,例如寒武纪在V3.2发布后宣布完成适配,次日股价跳涨近5% [34][36][39] - 部分投资者将DeepSeek的技术论文作为投资半导体行业的研究报告来参考 [34]
梁文锋署名DeepSeek最新论文,提出新方法突破GPU内存限制
新浪财经· 2026-01-13 20:33
核心观点 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”的新模型训练技术,旨在绕过GPU内存限制,实现参数扩展并提升成本效率 [1][3] - 该技术通过将计算与存储解耦,提升模型处理长上下文和复杂推理的效率,并在一个270亿参数的模型中验证了其有效性,使主要行业基准测试表现提升几个百分点 [4] - 行业观察指出,DeepSeek凭借其低成本、高效率的模型(如DeepSeek-R1)在全球市场,特别是新兴市场快速普及,正对美国AI公司构成竞争压力,并预计将在2025年2月中旬发布具备强大编程能力的新V4模型 [6][7] 技术突破 - 提出“基于可扩展查找的条件记忆”技术,命名为“Engram”,用以解决扩大AI模型规模时GPU高带宽内存容量有限的关键瓶颈 [3][4] - 该技术将计算与存储“解耦”,让模型更高效地“查找”基础信息,从而节省“序列深度”以用于更高层次推理 [3][4] - 在一个拥有270亿个参数的模型中验证,使主要行业基准测试的表现提升了几个百分点,并为执行计算需求更高的复杂推理保留了更多容量 [4] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,其潜在影响被比作他们自己开发的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司动态与市场影响 - DeepSeek创始人梁文锋与北京大学研究人员共同署名发表该技术论文,论文列出了14位共同作者 [1][6] - 公司去年年初发布的DeepSeek-R1大模型,使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,但实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁布拉德·史密斯警告,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势,并指出DeepSeek的技术在非洲等新兴市场快速普及 [6][7] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 外界猜测公司将在2025年春节(2月中旬)之前发布一款重要的新模型,据称是一款具备强大编程能力的新V4模型 [1][7] 行业背景与竞争格局 - 香港《南华早报》指出,HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国的三星电子和SK海力士以及美国的美光科技等行业领军者落后数年 [4] - 此举凸显了DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - 行业中最大的模型拥有数万亿个参数 [6] - 在过去一年中,DeepSeek一直是中国AI领域创新的典范 [1]
梁文锋署名DeepSeek新论文,“突破GPU内存限制”
观察者网· 2026-01-13 20:28
公司技术进展 - 中国AI初创公司DeepSeek与北京大学研究人员合作,提出了一种名为“Engram”(记忆痕迹)的“条件记忆”新技术 [1][2] - 该技术旨在通过将计算与存储“解耦”,绕过GPU高带宽内存(HBM)容量限制,解决扩大AI模型规模时的关键瓶颈 [2][3] - 新技术能够提升模型在处理长上下文时的效率,这是将AI聊天机器人转变为现实世界中有用代理的主要挑战之一 [3] - 研究人员在一个拥有270亿个参数的模型中验证了该技术,使主要行业基准测试的表现提升了几个百分点,并为执行更复杂的推理保留了更多容量 [3] - 研究人员认为条件记忆将成为下一代稀疏模型中不可或缺的建模原语,并将其潜在影响比作此前开发的、已被其他中国竞争对手采用的“混合专家”技术 [4] - 开源开发者平台Hugging Face的研究工程师称赞该论文“在推理和训练时用硬件上验证了这一技术” [6] 公司发展动态与行业地位 - 外界猜测DeepSeek将在今年春节(2月中旬)之前发布一款重要的新模型 [1][7] - 美国硅谷媒体The Information报道称,DeepSeek预计将在2月中旬推出一款具备强大编程能力的新V4模型 [8] - 去年年初,DeepSeek发布的DeepSeek-R1大模型使用英伟达H800 GPU进行训练,仅用两个月完成,成本为550万美元,仅为OpenAI等美国公司所花费金额的一小部分,却实现了足以匹敌美国顶尖AI模型的效果 [6] - 微软总裁警告称,在争夺西方以外用户的竞争中,美国AI公司正被中国竞争对手超越,中国低成本的“开源”模型是一大优势 [6] - 微软的一项新研究发现,DeepSeek的R1模型因其“易用性和低成本”,帮助加速了AI在全球范围内的普及,尤其是在全球南方国家,这让中国在“开源”AI模型的全球市场份额方面超越了美国 [7] - 微软总裁指出,中国AI初创公司DeepSeek的技术在非洲等新兴市场快速普及,凸显了美国公司面临的全球竞争,并称中国现在拥有不止一个具有竞争力的开源模型 [7] 行业背景与挑战 - DeepSeek在算力相对美国行业领先企业存在差距的情况下,持续专注于最大限度地提高成本效率 [1] - HBM是中国在AI硬件方面与美国之间最大的差距之一,中国存储芯片巨头长鑫存储仍然比韩国三星、SK海力士及美国美光科技等行业领军者落后数年 [3] - 行业中最大的模型拥有数万亿个参数 [6]
DeepSeek开源Engram,如何做到推理损失仅3%?
钛媒体APP· 2026-01-13 16:44
公司近期技术发布 - 公司于1月13日在GitHub开源名为Engram的模块,并发布与北京大学联合撰写的论文,阐述了一种新的大模型稀疏化方向:条件存储(Conditional Memory)[1] - 这是继1月1日发布关于mHC架构的论文后,公司的又一次重要技术发布,两篇论文均体现了公司通过架构与方法论创新来降低算力成本、追求性价比的核心方向[4] - 公司创始人兼CEO梁文锋在两篇论文中均署名,并列于作者最后[4] Engram技术原理与设计 - Engram是一个可微分、可训练、原生嵌入模型结构的组件,其核心设计是将记忆性负载从主干计算中剥离,通过高速检索模块直接调用稳定且高频出现的知识,以规避低效的反复计算[4] - 该模块首先提供确定性检索:模型基于当前token和前文形成的N-gram,通过哈希映射直接从超大规模的静态嵌入表中取出对应向量,无需复杂神经计算,速度更快、路径稳定[4] - 随后,Engram会通过引入轻量化门控机制,由当前层的隐藏状态来判断检索到的记忆是否适合当前语境,避免生硬注入,从而优化输出表现[6] - 实验表明,该机制在处理时间、专有名词等固定模式时高度活跃,而在自由生成和复杂推理时几乎不介入,这强化了记忆功能的同时,避免了不合时宜的幻觉出现[6] 公司提出的新架构维度 - 公司将大模型能力拆分为三个相互独立又协作的维度:决定逻辑与抽象能力的模型深度、以MoE为代表的计算稀疏性(减少每次激活的计算量)、以及Engram引入的存储稀疏性(条件记忆)[6] - 公司通过U型扩展定律解决了记忆模块可能影响计算与推理性能的平衡问题,在总参数和算力预算固定的情况下,系统调整MoE与Engram的比例,得出将20%至25%的稀疏参数分配给Engram是最优平衡点[6] - 测试数据显示,即便挂载规模高达千亿参数的Engram记忆库,推理吞吐损失也能控制在3%以内[7] 行业竞争与公司未来产品 - 据The Information援引知情人士消息,公司预计将在今年中国春节前后发布最新的V4模型,核心突破在于超长代码提示词的处理与解析能力,以及全流程训练中数据模式的理解力[7] - 新模型不仅推理性能将大幅提升,更擅长处理复杂任务,其编码能力是主打方向,内部初步测试结果据称已超越了Anthropic的最强编程模型Claude[7] - 竞争对手Anthropic为守护编程能力优势和入口通道,近期已陆续切断Claude Code的第三方平台入口,并于1月12日发布主打办公场景Agent落地的产品Cowork,可自动帮助用户完成制作PPT、整理邮件等工作[7] - 市场期待即将到来的公司旗舰新品能再次带来“DeepSeek春节冲击波”[7]