DeepSeek V1 - 财报，业绩电话会，研报，新闻

DeepSeek V1

搜索文档

自动驾驶之心· 2025-08-15 07:33

MOE架构基本原理 - MOE全称为混合专家模型核心思想是使用多个专家FFN替代原Transformer架构中的前馈层每个token会选择top-K个专家进行前向传递[2][4][6] - MOE层由路由器(门控和选择器)和n个专家FFN组成路由器通过softmax操作选择不同专家的权重选择器确定top-K专家[6] - 在Switch Transformers中采用top-K=1策略主要考虑专家并行方案时的通信计算和存储效率平衡[9][10][14] - 引入容量因子概念专家容量=(总token数/专家数量)×容量因子用于控制每个专家处理的token数量防止溢出或资源浪费[13][18] Switch Transformers优化方案 - 采用简单稀疏路由和高效稀疏路由两种方案简单稀疏路由针对单个token选择专家高效稀疏路由针对专家并行设计[7] - 负载不均衡问题通过可微的负载均衡辅助损失函数解决使token在专家分布上尽可能均匀[17][20] - 专家容量静态分配可能导致溢出或浪费动态计算时需要平衡容量因子设置[15][16] DeepSeek V1架构创新 - 提出细粒度专家划分策略通过拆分FFN中间隐藏维度增加专家数量在保持参数总量不变情况下提升专家专业化程度[22][25] - 引入共享专家分离机制设置特定共享专家始终激活用于捕捉通用知识减少其他路由专家间的冗余[24][26] - MOE层输出由三部分组成：共享专家输出 Top-K路由专家输出和残差连接[30] - 设计专家级别和设备级别双重负载均衡损失函数解决训练不充分和计算瓶颈问题[32][35] DeepSeek V2优化重点 - 实施设备受限路由策略将每个token的激活专家所在GPU设备数量限制为3个显著降低通信开销[37] - 新增通信负载均衡损失函数优化设备间token分配均衡性[38][39] - 采用token丢弃策略对超过专家容量的token按分值降序丢弃仅影响当前MOE层计算[42] DeepSeek V3技术演进 - 将门控函数从SoftMax改为Sigmoid 可能出于降低计算复杂度考虑特别在专家数量增至256个时更明显[44][45] - 弃用所有辅助负载均衡损失引入可学习偏置项bi 通过动态调整偏置值实现负载均衡[46][47] - 新增序列级别辅助损失函数防止单个序列内出现极端不平衡情况[49][50] - 完全取消token丢弃策略通过偏置项和序列级损失实现良好负载均衡[52] MOE架构发展脉络 - MOE架构早在1991年就已提出但直到2023年底Mixtral 8*7B模型发布后才受到广泛关注[2] - 国内Qwen和MiniMax等公司也推出MOE模型但架构实现相对DeepSeek更简单[3] - DeepSeek从V1到V3持续优化负载均衡和通信效率体现对高效计算的一贯追求[36][43] - MOE模型特别适合云计算并行推理场景在AI模型中的地位日益重要[3]

DeepSeek爆火100天：梁文锋「藏锋」

36氪· 2025-05-16 17:21

核心观点 - DeepSeek R1的发布将AI行业焦点从GPT模式转向Reasoner模式，标志着AI发展的新里程碑 [3][9] - 梁文锋的低成本大模型训练策略引发行业震动，挑战英伟达的高端算力芯片需求，导致其股价单日蒸发近6000亿美元 [4][5][6] - DeepSeek的开源策略和性价比路线重构了中美AI发展路径，国内科技大厂纷纷跟进降价并调整战略 [14][15][37][40] 行业影响 - 国内科技大厂加速C端应用布局，腾讯、字节等接入DeepSeek后实现用户增长，腾讯元宝下载量一度登顶 [40][41] - 行业分裂为两条路线：坚持Scaling Law的硅谷企业（如OpenAI融资400亿美元）与追随DeepSeek性价比策略的中国企业 [37][38] - AI六小龙等国内创企受冲击，零一万物放弃AGI转向行业模型，其他公司转向Agent应用或垂直领域 [38][39] 公司动态 - DeepSeek爆红后估值达80亿美元寻求融资，但暂未扩建算力或追逐用户规模，保持独立开源定位 [29][30][32] - 公司技术迭代加速：发布NSA架构挑战Transformer，参数规模从7B扩展到671B，数学和代码模型性能显著提升 [35][36] - 团队押注数学/代码、多模态、自然语言三大方向，创始人梁文锋持续参与技术研发并保持低调作风 [19][34] 产业链反应 - 英伟达H20芯片因DeepSeek需求激增遭美国出口管制，预计损失55亿美元，紧急开发中国特供版 [7][8] - 科技大厂启动"天才少年"计划争夺年轻人才，试图复制DeepSeek的创新模式 [42] - 马化腾、李想等国内大佬公开赞赏梁文锋，硅谷则对其持质疑态度 [23][24]

Artificial Intelligence

AGI（通用人工智能）

大模型价格战

Artificial Intelligence

DeepSeek R1

DeepSeek V1

Artificial Intelligence

AGI（通用人工智能）

大模型价格战

Artificial Intelligence

DeepSeek R1

DeepSeek V1