DeepSeek V2 - 财报，业绩电话会，研报，新闻

DeepSeek V2

搜索文档

AI前线· 2026-01-13 06:41

DeepSeek发布Engram技术成果 - 公司DeepSeek于今日凌晨在GitHub官方仓库开源了新论文与模块Engram，论文题为“Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”，公司创始人梁文锋再次出现在合著者名单中 [2] - 该方法提出了一种新的“查—算分离”机制，通过引入可扩展的查找记忆结构，在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现 [5] - 代码与论文全文均已开源，论文与代码地址已公布 [6] Engram技术提出的背景与动机 - 当前主流大语言模型架构基于Transformer和MoE结构，MoE通过动态路由机制降低计算成本并扩展任务容量，DeepSeek自家系列模型也采用了先进的MoE方法 [8] - 在传统架构中，模型参数同时承担事实性记忆和逻辑推理与计算两种角色，这导致为增加知识记忆而增加参数量时，计算量会同步激增，MoE专家在处理“死记硬背”任务时依然不够高效 [9] - 神经网络用高昂的矩阵运算模拟简单的“查表检索”是一种浪费，Engram旨在实现“该查表的查表，该算的算”，以解决此困境 [9] Engram的核心思想与架构设计 - “Engram”一词源自神经科学，意为“记忆痕迹”，它是一个可扩展、可查找的记忆模块，用于语言模型在推理过程中检索过去可能已见过的模式或片段 [10] - 核心技术之一是现代化的哈希N-Gram嵌入，它对输入的Token序列进行N-Gram切片，并利用哈希算法将这些片段映射到一个巨大的、可学习的查找表中 [11][13] - 由于采用哈希索引，查找是确定性且O(1)时间复杂度的，这意味着无论存储多少记忆片段，检索速度几乎恒定且算力消耗极低 [13] - 该设计将一部分“记忆职责”从深度神经计算中卸载出来，使得模型拥有活跃神经通道处理复杂计算，也有静态记忆通道高效处理固定模式，这被称为“稀疏性的新轴” [14] - Engram具备条件记忆功能，会根据当前上下文的隐向量来决定提取哪些记忆，在架构设计上，Engram模块位于Transformer层的早期阶段，负责“模式重构” [14] Engram与MoE的关系及协同系统 - Engram提供了一个新的稀疏性轴，与MoE的条件计算不同，它通过条件查找提供静态记忆容量 [15] - 两者在目标、计算方式、优化方向和作用位置上存在区别：MoE目标为条件激活神经专家，计算方式为无极dense计算/激活部分专家，优化方向为降低活跃神经计算量，作用位置在深层推理；Engram目标为条件触发静态记忆查找，计算方式为O(1)查表，优化方向为减少神经计算重建已知模式，作用位置在早期模式重建/记忆检索 [16] - DeepSeek将Engram与MoE结合形成双系统：Engram模块负责海量知识点的“存储与快速检索”，MoE专家则摆脱记忆负担，全身心投入“逻辑推理与合成” [16] - 这种分工极大地优化了参数效率，在27B的实验模型中，Engram模块可以占用大量参数用于记忆，但在实际推理时只消耗极少的计算量 [16] Engram模型的性能表现 - 在多项基准测试中，Engram模型相比同参数规模模型展现出性能提升 [17] - 在27B参数规模下，Engram-27B模型在MMLU上的准确率为60.4%，高于MoE-27B的57.4%和Dense-4B的48.6% [17] - 在知识推理任务上，Engram-27B在ARC-Challenge上的准确率为73.8%，高于MoE-27B的70.1% [17] - 在代码与数学任务上，Engram-27B在GSM8K上的准确率为60.6%，高于MoE-27B的58.4% [17] - 随着参数增加至40B，Engram-40B在多项任务上性能继续提升，例如MMLU准确率达60.6%，ARC-Challenge准确率达76.4% [17] 行业与社区反响 - 在Reddit、X等平台，Engram的技术核心受到用户肯定，被认为让模型架构处理“记忆模式查找”和“神经计算推理”职责分离，开启了新的稀疏性方向 [18] - 有用户评论指出，Engram增加了静态记忆作为补充的稀疏性轴，查找复杂度为O(1)，并发现MoE和Engram之间存在U形缩放规律，这指导着如何在两者之间分配容量 [19] - 有用户对基于n-gram lookup的O(1)查找机制表示兴趣，认为即便在不依赖GPU的环境下也能实现，让开发者对本地部署大模型功能有了更实际的期待 [20] - 专家群体开始从纯参数扩张思维转向更“智能”的架构设计，包括查表式模块和神经网络的协同，这种设计被认为是对传统NLP技术的现代化转换，具有较高的可行性和实用性 [21] - 社区评论指出，Engram很可能是DeepSeek即将发布的V4模型的核心技术基础，业内观察者认为该模块可能会成为DeepSeek V4的重要组成部分，预示下一代模型会在记忆和推理协同上实现架构级提升 [22][23] - 有网友表示，Meta之前也有过类似想法，但用到的技术不同 [26]

量子位· 2025-11-15 10:08

杭州六小龙与DeepSeek亮相 - 浙江乌镇世界互联网大会上，“杭州六小龙”首次同台亮相，包括宇树科技、强脑科技、群核科技、游戏科学、云深处科技及DeepSeek的代表[1] - 除DeepSeek外，其他五家公司的代表均为创始人或CEO，头衔显示在嘉宾介绍中[42][44] - DeepSeek创始人及CEO梁文锋未出席，由研究员陈德里代表公司及梁文锋本人参会[3][4][6] DeepSeek研究员陈德里的观点 - 陈德里对AI短期（未来三到五年）持乐观态度，认为AI的进步将极大地帮助人类，处于“蜜月期”[8] - 对AI长期（十年以后）发展表示担忧，认为AI可能取代绝大多数工作，且不再像以往技术革命那样创造新岗位，对社会秩序和经济结构造成巨大冲击[9][12] - 强调此轮AI革命与前两次工业革命有本质区别，AI是首个具备自主“智慧”甚至在某些方面超越人类的技术，正在改写人类与技术的关系格局[10][11] - 指出长期来看AI可能对社会产生负面影响，届时需要科技公司扮演“守护者”的角色[13] 陈德里的背景与角色 - 陈德里于2023年加入DeepSeek担任研究员，主要负责语言模型、对齐机制、训练策略及模型泛化能力等核心方向[18] - 在DeepSeek发布的多项重要研究成果（如V2、V3、R1）中均有贡献，其名字出现在相关论文作者列表中[19] - 根据谷歌学术，其被引次数已超过1.3万次，且在2025年增长尤为明显[20] - 本科与研究生均就读于北京大学，主修信息管理与信息系统及EECS，拥有量化研究（瑞穗证券实习）和AI研究（腾讯微信AI团队实习）复合背景[31][32][33][34][35] - 曾作为第一作者发表关于图神经网络（GNN）的论文，该论文引用次数已超过1500次[36][37][38] - 此次亮相使其成为继梁文锋之后，DeepSeek在公开场合的第二个“代言人”，更被视作“梁文锋代言人”[41][42] DeepSeek的技术进展与公开活动 - 2024年是DeepSeek正式入局大语言模型的关键一年，团队在一年内完成了从V1到V3的三次大版本迭代[22] - 在英伟达GTC2024大会上，DeepSeek连续第三次受邀登台，陈德里首次以“幻方AI兼DeepSeek研究员”身份亮相并发表演讲[23] - 陈德里在GTC2024演讲中提出了“价值观对齐解耦化”的新思路，主张将AI对齐拆分为必须统一的“核心价值观”和可定制的“多元价值观”，以实现“和而不同”[24][25][26] - 此次GTC演讲成为DeepSeek在该舞台的“绝唱”，公司未出席2025年大会，陈德里也在近两年内未再公开露面[27][28][29][30]

Artificial Intelligence

价值观对齐解耦化

Artificial Intelligence

DeepSeek V3

DeepSeek R1

DeepSeek LLM

Artificial Intelligence

价值观对齐解耦化

Artificial Intelligence

自动驾驶之心· 2025-08-15 07:33

MOE架构基本原理 - MOE全称为混合专家模型核心思想是使用多个专家FFN替代原Transformer架构中的前馈层每个token会选择top-K个专家进行前向传递[2][4][6] - MOE层由路由器(门控和选择器)和n个专家FFN组成路由器通过softmax操作选择不同专家的权重选择器确定top-K专家[6] - 在Switch Transformers中采用top-K=1策略主要考虑专家并行方案时的通信计算和存储效率平衡[9][10][14] - 引入容量因子概念专家容量=(总token数/专家数量)×容量因子用于控制每个专家处理的token数量防止溢出或资源浪费[13][18] Switch Transformers优化方案 - 采用简单稀疏路由和高效稀疏路由两种方案简单稀疏路由针对单个token选择专家高效稀疏路由针对专家并行设计[7] - 负载不均衡问题通过可微的负载均衡辅助损失函数解决使token在专家分布上尽可能均匀[17][20] - 专家容量静态分配可能导致溢出或浪费动态计算时需要平衡容量因子设置[15][16] DeepSeek V1架构创新 - 提出细粒度专家划分策略通过拆分FFN中间隐藏维度增加专家数量在保持参数总量不变情况下提升专家专业化程度[22][25] - 引入共享专家分离机制设置特定共享专家始终激活用于捕捉通用知识减少其他路由专家间的冗余[24][26] - MOE层输出由三部分组成：共享专家输出 Top-K路由专家输出和残差连接[30] - 设计专家级别和设备级别双重负载均衡损失函数解决训练不充分和计算瓶颈问题[32][35] DeepSeek V2优化重点 - 实施设备受限路由策略将每个token的激活专家所在GPU设备数量限制为3个显著降低通信开销[37] - 新增通信负载均衡损失函数优化设备间token分配均衡性[38][39] - 采用token丢弃策略对超过专家容量的token按分值降序丢弃仅影响当前MOE层计算[42] DeepSeek V3技术演进 - 将门控函数从SoftMax改为Sigmoid 可能出于降低计算复杂度考虑特别在专家数量增至256个时更明显[44][45] - 弃用所有辅助负载均衡损失引入可学习偏置项bi 通过动态调整偏置值实现负载均衡[46][47] - 新增序列级别辅助损失函数防止单个序列内出现极端不平衡情况[49][50] - 完全取消token丢弃策略通过偏置项和序列级损失实现良好负载均衡[52] MOE架构发展脉络 - MOE架构早在1991年就已提出但直到2023年底Mixtral 8*7B模型发布后才受到广泛关注[2] - 国内Qwen和MiniMax等公司也推出MOE模型但架构实现相对DeepSeek更简单[3] - DeepSeek从V1到V3持续优化负载均衡和通信效率体现对高效计算的一贯追求[36][43] - MOE模型特别适合云计算并行推理场景在AI模型中的地位日益重要[3]

DeepSeek爆火100天：梁文锋「藏锋」

36氪· 2025-05-16 17:21

核心观点 - DeepSeek R1的发布将AI行业焦点从GPT模式转向Reasoner模式，标志着AI发展的新里程碑 [3][9] - 梁文锋的低成本大模型训练策略引发行业震动，挑战英伟达的高端算力芯片需求，导致其股价单日蒸发近6000亿美元 [4][5][6] - DeepSeek的开源策略和性价比路线重构了中美AI发展路径，国内科技大厂纷纷跟进降价并调整战略 [14][15][37][40] 行业影响 - 国内科技大厂加速C端应用布局，腾讯、字节等接入DeepSeek后实现用户增长，腾讯元宝下载量一度登顶 [40][41] - 行业分裂为两条路线：坚持Scaling Law的硅谷企业（如OpenAI融资400亿美元）与追随DeepSeek性价比策略的中国企业 [37][38] - AI六小龙等国内创企受冲击，零一万物放弃AGI转向行业模型，其他公司转向Agent应用或垂直领域 [38][39] 公司动态 - DeepSeek爆红后估值达80亿美元寻求融资，但暂未扩建算力或追逐用户规模，保持独立开源定位 [29][30][32] - 公司技术迭代加速：发布NSA架构挑战Transformer，参数规模从7B扩展到671B，数学和代码模型性能显著提升 [35][36] - 团队押注数学/代码、多模态、自然语言三大方向，创始人梁文锋持续参与技术研发并保持低调作风 [19][34] 产业链反应 - 英伟达H20芯片因DeepSeek需求激增遭美国出口管制，预计损失55亿美元，紧急开发中国特供版 [7][8] - 科技大厂启动"天才少年"计划争夺年轻人才，试图复制DeepSeek的创新模式 [42] - 马化腾、李想等国内大佬公开赞赏梁文锋，硅谷则对其持质疑态度 [23][24]

Artificial Intelligence

AGI（通用人工智能）

大模型价格战

Artificial Intelligence

DeepSeek R1

DeepSeek V1

Artificial Intelligence

AGI（通用人工智能）

大模型价格战

Artificial Intelligence

DeepSeek R1

DeepSeek V1

快看！这就是DeepSeek背后的公司

梧桐树下V· 2025-01-29 11:16

公司基本信息 - 公司全称为杭州深度求索人工智能基础技术研究有限公司，英文名Hangzhou Deep Search Artificial Intelligence Basic Technology Research Co Ltd，成立于2023年7月17日 [2] - 注册资本1000万元且已完成实缴，法定代表人裴湉，注册地址为杭州市拱墅区环城北路169号汇金国际大厦西1幢1201室 [2][3] - 截至2023年底公司社保缴费员工4名，企查查行业分类为信息系统集成服务，规模为微型企业 [2][3] 业务与技术 - 公司专注于通用人工智能模型（AGI）研发，主要产品包括开源大语言模型DeepSeek LLM、MoE模型DeepSeek MoE、代码模型DeepSeek Coder系列、数学模型DeepSeek Math及多模态模型DeepSeek-VL系列 [4] 股权结构与股东 - 股东为宁波程恩企业管理咨询合伙企业（有限合伙）持股99%和梁文锋持股1% [6] - 宁波程恩成立于2023年7月31日，出资额1200万元，其合伙人包括梁文锋（50.10%）、宁波程信柔兆企业管理咨询合伙企业（49.80%）和宁波程普商务咨询有限公司（0.10%） [6][9] - 梁文锋通过多层持股控制宁波程信（68.14%股权）和宁波程普（68.21%注册资本） [6] 关联企业与变更记录 - 宁波程恩、宁波程信、宁波程普均成立于2023年7月下旬，晚于杭州深度求索的成立日期（7月17日），三家企业执行事务合伙人均为梁键 [8][9] - 公司初始为北京深度求索全资子公司，2023年8月2日股权转让给宁波程恩和梁文锋，同日注册资本从100万元增至1000万元 [11] - 北京深度求索成立于2023年5月16日，曾与杭州深度求索形成交叉持股结构（双方互相100%持股），后调整为现有股权架构 [11]

Artificial Intelligence

General Artificial Intelligence Model (AGI)

Large Language Model (LLM)

Information System Integration Services

DeepSeek

DeepSeek MoE

Artificial Intelligence

General Artificial Intelligence Model (AGI)

Large Language Model (LLM)

Information System Integration Services

DeepSeek

DeepSeek MoE