Workflow
DeepSeek V2
icon
搜索文档
刚刚,DeepSeek 突发梁文峰署名新论文:V4 新架构提前曝光?
AI前线· 2026-01-13 06:41
DeepSeek发布Engram技术成果 - 公司DeepSeek于今日凌晨在GitHub官方仓库开源了新论文与模块Engram,论文题为“Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models”,公司创始人梁文锋再次出现在合著者名单中 [2] - 该方法提出了一种新的“查—算分离”机制,通过引入可扩展的查找记忆结构,在等参数、等算力条件下显著提升模型在知识调用、推理、代码、数学等任务上的表现 [5] - 代码与论文全文均已开源,论文与代码地址已公布 [6] Engram技术提出的背景与动机 - 当前主流大语言模型架构基于Transformer和MoE结构,MoE通过动态路由机制降低计算成本并扩展任务容量,DeepSeek自家系列模型也采用了先进的MoE方法 [8] - 在传统架构中,模型参数同时承担事实性记忆和逻辑推理与计算两种角色,这导致为增加知识记忆而增加参数量时,计算量会同步激增,MoE专家在处理“死记硬背”任务时依然不够高效 [9] - 神经网络用高昂的矩阵运算模拟简单的“查表检索”是一种浪费,Engram旨在实现“该查表的查表,该算的算”,以解决此困境 [9] Engram的核心思想与架构设计 - “Engram”一词源自神经科学,意为“记忆痕迹”,它是一个可扩展、可查找的记忆模块,用于语言模型在推理过程中检索过去可能已见过的模式或片段 [10] - 核心技术之一是现代化的哈希N-Gram嵌入,它对输入的Token序列进行N-Gram切片,并利用哈希算法将这些片段映射到一个巨大的、可学习的查找表中 [11][13] - 由于采用哈希索引,查找是确定性且O(1)时间复杂度的,这意味着无论存储多少记忆片段,检索速度几乎恒定且算力消耗极低 [13] - 该设计将一部分“记忆职责”从深度神经计算中卸载出来,使得模型拥有活跃神经通道处理复杂计算,也有静态记忆通道高效处理固定模式,这被称为“稀疏性的新轴” [14] - Engram具备条件记忆功能,会根据当前上下文的隐向量来决定提取哪些记忆,在架构设计上,Engram模块位于Transformer层的早期阶段,负责“模式重构” [14] Engram与MoE的关系及协同系统 - Engram提供了一个新的稀疏性轴,与MoE的条件计算不同,它通过条件查找提供静态记忆容量 [15] - 两者在目标、计算方式、优化方向和作用位置上存在区别:MoE目标为条件激活神经专家,计算方式为无极dense计算/激活部分专家,优化方向为降低活跃神经计算量,作用位置在深层推理;Engram目标为条件触发静态记忆查找,计算方式为O(1)查表,优化方向为减少神经计算重建已知模式,作用位置在早期模式重建/记忆检索 [16] - DeepSeek将Engram与MoE结合形成双系统:Engram模块负责海量知识点的“存储与快速检索”,MoE专家则摆脱记忆负担,全身心投入“逻辑推理与合成” [16] - 这种分工极大地优化了参数效率,在27B的实验模型中,Engram模块可以占用大量参数用于记忆,但在实际推理时只消耗极少的计算量 [16] Engram模型的性能表现 - 在多项基准测试中,Engram模型相比同参数规模模型展现出性能提升 [17] - 在27B参数规模下,Engram-27B模型在MMLU上的准确率为60.4%,高于MoE-27B的57.4%和Dense-4B的48.6% [17] - 在知识推理任务上,Engram-27B在ARC-Challenge上的准确率为73.8%,高于MoE-27B的70.1% [17] - 在代码与数学任务上,Engram-27B在GSM8K上的准确率为60.6%,高于MoE-27B的58.4% [17] - 随着参数增加至40B,Engram-40B在多项任务上性能继续提升,例如MMLU准确率达60.6%,ARC-Challenge准确率达76.4% [17] 行业与社区反响 - 在Reddit、X等平台,Engram的技术核心受到用户肯定,被认为让模型架构处理“记忆模式查找”和“神经计算推理”职责分离,开启了新的稀疏性方向 [18] - 有用户评论指出,Engram增加了静态记忆作为补充的稀疏性轴,查找复杂度为O(1),并发现MoE和Engram之间存在U形缩放规律,这指导着如何在两者之间分配容量 [19] - 有用户对基于n-gram lookup的O(1)查找机制表示兴趣,认为即便在不依赖GPU的环境下也能实现,让开发者对本地部署大模型功能有了更实际的期待 [20] - 专家群体开始从纯参数扩张思维转向更“智能”的架构设计,包括查表式模块和神经网络的协同,这种设计被认为是对传统NLP技术的现代化转换,具有较高的可行性和实用性 [21] - 社区评论指出,Engram很可能是DeepSeek即将发布的V4模型的核心技术基础,业内观察者认为该模块可能会成为DeepSeek V4的重要组成部分,预示下一代模型会在记忆和推理协同上实现架构级提升 [22][23] - 有网友表示,Meta之前也有过类似想法,但用到的技术不同 [26]
梁文锋代表DeepSeek,他代表梁文锋
量子位· 2025-11-15 10:08
杭州六小龙与DeepSeek亮相 - 浙江乌镇世界互联网大会上,“杭州六小龙”首次同台亮相,包括宇树科技、强脑科技、群核科技、游戏科学、云深处科技及DeepSeek的代表[1] - 除DeepSeek外,其他五家公司的代表均为创始人或CEO,头衔显示在嘉宾介绍中[42][44] - DeepSeek创始人及CEO梁文锋未出席,由研究员陈德里代表公司及梁文锋本人参会[3][4][6] DeepSeek研究员陈德里的观点 - 陈德里对AI短期(未来三到五年)持乐观态度,认为AI的进步将极大地帮助人类,处于“蜜月期”[8] - 对AI长期(十年以后)发展表示担忧,认为AI可能取代绝大多数工作,且不再像以往技术革命那样创造新岗位,对社会秩序和经济结构造成巨大冲击[9][12] - 强调此轮AI革命与前两次工业革命有本质区别,AI是首个具备自主“智慧”甚至在某些方面超越人类的技术,正在改写人类与技术的关系格局[10][11] - 指出长期来看AI可能对社会产生负面影响,届时需要科技公司扮演“守护者”的角色[13] 陈德里的背景与角色 - 陈德里于2023年加入DeepSeek担任研究员,主要负责语言模型、对齐机制、训练策略及模型泛化能力等核心方向[18] - 在DeepSeek发布的多项重要研究成果(如V2、V3、R1)中均有贡献,其名字出现在相关论文作者列表中[19] - 根据谷歌学术,其被引次数已超过1.3万次,且在2025年增长尤为明显[20] - 本科与研究生均就读于北京大学,主修信息管理与信息系统及EECS,拥有量化研究(瑞穗证券实习)和AI研究(腾讯微信AI团队实习)复合背景[31][32][33][34][35] - 曾作为第一作者发表关于图神经网络(GNN)的论文,该论文引用次数已超过1500次[36][37][38] - 此次亮相使其成为继梁文锋之后,DeepSeek在公开场合的第二个“代言人”,更被视作“梁文锋代言人”[41][42] DeepSeek的技术进展与公开活动 - 2024年是DeepSeek正式入局大语言模型的关键一年,团队在一年内完成了从V1到V3的三次大版本迭代[22] - 在英伟达GTC2024大会上,DeepSeek连续第三次受邀登台,陈德里首次以“幻方AI兼DeepSeek研究员”身份亮相并发表演讲[23] - 陈德里在GTC2024演讲中提出了“价值观对齐解耦化”的新思路,主张将AI对齐拆分为必须统一的“核心价值观”和可定制的“多元价值观”,以实现“和而不同”[24][25][26] - 此次GTC演讲成为DeepSeek在该舞台的“绝唱”,公司未出席2025年大会,陈德里也在近两年内未再公开露面[27][28][29][30]
万字解析DeepSeek MOE架构!
自动驾驶之心· 2025-08-15 07:33
MOE架构基本原理 - MOE全称为混合专家模型 核心思想是使用多个专家FFN替代原Transformer架构中的前馈层 每个token会选择top-K个专家进行前向传递[2][4][6] - MOE层由路由器(门控和选择器)和n个专家FFN组成 路由器通过softmax操作选择不同专家的权重 选择器确定top-K专家[6] - 在Switch Transformers中采用top-K=1策略 主要考虑专家并行方案时的通信 计算和存储效率平衡[9][10][14] - 引入容量因子概念 专家容量=(总token数/专家数量)×容量因子 用于控制每个专家处理的token数量 防止溢出或资源浪费[13][18] Switch Transformers优化方案 - 采用简单稀疏路由和高效稀疏路由两种方案 简单稀疏路由针对单个token选择专家 高效稀疏路由针对专家并行设计[7] - 负载不均衡问题通过可微的负载均衡辅助损失函数解决 使token在专家分布上尽可能均匀[17][20] - 专家容量静态分配可能导致溢出或浪费 动态计算时需要平衡容量因子设置[15][16] DeepSeek V1架构创新 - 提出细粒度专家划分策略 通过拆分FFN中间隐藏维度增加专家数量 在保持参数总量不变情况下提升专家专业化程度[22][25] - 引入共享专家分离机制 设置特定共享专家始终激活 用于捕捉通用知识 减少其他路由专家间的冗余[24][26] - MOE层输出由三部分组成:共享专家输出 Top-K路由专家输出和残差连接[30] - 设计专家级别和设备级别双重负载均衡损失函数 解决训练不充分和计算瓶颈问题[32][35] DeepSeek V2优化重点 - 实施设备受限路由策略 将每个token的激活专家所在GPU设备数量限制为3个 显著降低通信开销[37] - 新增通信负载均衡损失函数 优化设备间token分配均衡性[38][39] - 采用token丢弃策略 对超过专家容量的token按分值降序丢弃 仅影响当前MOE层计算[42] DeepSeek V3技术演进 - 将门控函数从SoftMax改为Sigmoid 可能出于降低计算复杂度考虑 特别在专家数量增至256个时更明显[44][45] - 弃用所有辅助负载均衡损失 引入可学习偏置项bi 通过动态调整偏置值实现负载均衡[46][47] - 新增序列级别辅助损失函数 防止单个序列内出现极端不平衡情况[49][50] - 完全取消token丢弃策略 通过偏置项和序列级损失实现良好负载均衡[52] MOE架构发展脉络 - MOE架构早在1991年就已提出 但直到2023年底Mixtral 8*7B模型发布后才受到广泛关注[2] - 国内Qwen和MiniMax等公司也推出MOE模型 但架构实现相对DeepSeek更简单[3] - DeepSeek从V1到V3持续优化负载均衡和通信效率 体现对高效计算的一贯追求[36][43] - MOE模型特别适合云计算并行推理场景 在AI模型中的地位日益重要[3]
DeepSeek爆火100天:梁文锋「藏锋」
36氪· 2025-05-16 17:21
核心观点 - DeepSeek R1的发布将AI行业焦点从GPT模式转向Reasoner模式,标志着AI发展的新里程碑 [3][9] - 梁文锋的低成本大模型训练策略引发行业震动,挑战英伟达的高端算力芯片需求,导致其股价单日蒸发近6000亿美元 [4][5][6] - DeepSeek的开源策略和性价比路线重构了中美AI发展路径,国内科技大厂纷纷跟进降价并调整战略 [14][15][37][40] 行业影响 - 国内科技大厂加速C端应用布局,腾讯、字节等接入DeepSeek后实现用户增长,腾讯元宝下载量一度登顶 [40][41] - 行业分裂为两条路线:坚持Scaling Law的硅谷企业(如OpenAI融资400亿美元)与追随DeepSeek性价比策略的中国企业 [37][38] - AI六小龙等国内创企受冲击,零一万物放弃AGI转向行业模型,其他公司转向Agent应用或垂直领域 [38][39] 公司动态 - DeepSeek爆红后估值达80亿美元寻求融资,但暂未扩建算力或追逐用户规模,保持独立开源定位 [29][30][32] - 公司技术迭代加速:发布NSA架构挑战Transformer,参数规模从7B扩展到671B,数学和代码模型性能显著提升 [35][36] - 团队押注数学/代码、多模态、自然语言三大方向,创始人梁文锋持续参与技术研发并保持低调作风 [19][34] 产业链反应 - 英伟达H20芯片因DeepSeek需求激增遭美国出口管制,预计损失55亿美元,紧急开发中国特供版 [7][8] - 科技大厂启动"天才少年"计划争夺年轻人才,试图复制DeepSeek的创新模式 [42] - 马化腾、李想等国内大佬公开赞赏梁文锋,硅谷则对其持质疑态度 [23][24]
快看!这就是DeepSeek背后的公司
梧桐树下V· 2025-01-29 11:16
公司基本信息 - 公司全称为杭州深度求索人工智能基础技术研究有限公司,英文名Hangzhou Deep Search Artificial Intelligence Basic Technology Research Co Ltd,成立于2023年7月17日 [2] - 注册资本1000万元且已完成实缴,法定代表人裴湉,注册地址为杭州市拱墅区环城北路169号汇金国际大厦西1幢1201室 [2][3] - 截至2023年底公司社保缴费员工4名,企查查行业分类为信息系统集成服务,规模为微型企业 [2][3] 业务与技术 - 公司专注于通用人工智能模型(AGI)研发,主要产品包括开源大语言模型DeepSeek LLM、MoE模型DeepSeek MoE、代码模型DeepSeek Coder系列、数学模型DeepSeek Math及多模态模型DeepSeek-VL系列 [4] 股权结构与股东 - 股东为宁波程恩企业管理咨询合伙企业(有限合伙)持股99%和梁文锋持股1% [6] - 宁波程恩成立于2023年7月31日,出资额1200万元,其合伙人包括梁文锋(50.10%)、宁波程信柔兆企业管理咨询合伙企业(49.80%)和宁波程普商务咨询有限公司(0.10%) [6][9] - 梁文锋通过多层持股控制宁波程信(68.14%股权)和宁波程普(68.21%注册资本) [6] 关联企业与变更记录 - 宁波程恩、宁波程信、宁波程普均成立于2023年7月下旬,晚于杭州深度求索的成立日期(7月17日),三家企业执行事务合伙人均为梁键 [8][9] - 公司初始为北京深度求索全资子公司,2023年8月2日股权转让给宁波程恩和梁文锋,同日注册资本从100万元增至1000万元 [11] - 北京深度求索成立于2023年5月16日,曾与杭州深度求索形成交叉持股结构(双方互相100%持股),后调整为现有股权架构 [11]