DeepSeek V3 - 财报，业绩电话会，研报，新闻

DeepSeek V3

搜索文档

机器之心· 2025-10-09 10:24

文章核心观点 - 大模型扩展至百亿、千亿级后，Scaling Law的边际效益开始递减，行业焦点从预训练转向后训练阶段[2] - 后训练通过RLHF、RLAIF、DPO、RLVR等方法提升模型推理能力和对齐效果，成为LLM走向高阶智能的必经之路[3][12] - OpenAI o系列、DeepSeek R1、Google Gemini等以推理为核心的模型均通过强化学习后训练提升能力[3][16] 从预训练到指令微调的演进 - 基础模型通过大规模文本和图像数据预训练，目标为预测下一个token，但该目标限制模型在实际应用中的效用[7][8] - 后训练使用规模更小但质量更高的数据，核心目标是对模型行为进行对齐并强化预训练阶段积累的能力[11] - 主流后训练技术包括监督微调和基于人类反馈的强化学习等[11] 监督微调基本原理 - SFT通过指令-回答对数据集微调预训练模型，将其转化为能遵循用户指令的模型[21] - SFT数据集规模通常为1万到10万个样本，对缺陷极为敏感，少量低质量样本可能导致模型学习错误行为[25] - SFT数据质量常见问题包括标签噪声、分布不匹配和伪推理三类，需通过过滤、验证和数据增强方法减轻风险[26][27] - SFT损失函数是在给定输入x条件下生成正确序列y的负对数似然，通过交叉熵实现[33][35] 强化学习后训练技术 - 强化学习是后训练中最复杂且最有效的微调方式之一，通过最大化奖励信号进行优化[39][40] - RLHF借助人类偏好训练奖励模型，帮助模型在日常对话中表现更优并对齐安全性与语言风格[42] - RLAIF通过LLM与书面规则结合实现监督信号自主扩展，RLVR使用可验证信号提升数学推理与代码能力[42] - 常用RL算法包括PPO、GRPO、REINFORCE和DPO，其中GRPO因去掉单独价值网络降低计算成本而更受欢迎[53][55] 后训练模型评估方法 - 后训练评估需融合自动评估和人工评估等多种方法，以覆盖模型质量各个方面[57][58] - 自动评估快速廉价，人工评估是评估模型主观质量的黄金标准但成本高且易受主观因素影响[59] - 人工评估包括专家标注、用户自评和混合模式等多种设置，适用于不同场景[60]

观察者网· 2025-09-29 17:58

公司产品发布动态 - 开源社区平台Hugging Face上出现DeepSeek-V3 2页面引发关注 [1] - DeepSeek最新一次更新在一周前的9月22日发布DeepSeek-V3 1-Terminus模型并宣布开源 [3] - 目前Hugging Face相关界面显示报错公司官方尚未对此回应 [4] 公司产品发布历史规律 - DeepSeek有在节前一天发布新版本和更新的历史 [2] - 2024年12月27日（元旦前）发布DeepSeek V3 [3] - 2025年5月28日（端午节前）发布DeepSeek-R1-0528称为端午节特别献礼 [3]

DeepSeek-V3.1-Terminus

DeepSeek-V3.1-Terminus

谁说Scaling Law到头了？新研究：每一步的微小提升会带来指数级增长

36氪· 2025-09-16 15:46

Scaling Law与模型规模扩大的经济价值 - 研究发现虽然单步任务准确率提升幅度减小，但这些微小进步叠加能使模型完成任务长度实现指数级增长，这在现实中更具经济价值 [1][2] - 论文指出模型在现实世界的价值往往源于智能体能够完成任务的长度，从这个角度观察，更大的模型非但没有收益递减，反而能将单步准确率微小提升复合放大，在任务完成长度上实现指数级跃升 [2] - 人类劳动报酬按时间计算，如果智能体经济价值源于能够完成任务时长，那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源所带来收益的可靠参考 [18] 长程任务执行的挑战与突破 - 长程任务执行一直是深度学习的致命弱点，自动驾驶demo很炫酷但要真正上路跑长途用了十多年才实现，AI能生成惊艳图片但拍一段连贯一致的长视频仍是难题 [4] - 研究通过解耦推理或智能体任务中规划和执行需求来解决问题，规划涉及决定检索什么信息或使用什么工具及顺序，而执行是让规划变成现实 [6] - 实验证实即使去除规划和知识要求，长时程任务执行对LLM仍具有挑战性，即使是表现最佳模型Qwen3-32B准确率在15个轮次内也降至50%以下 [23] Self-Conditioning效应的影响 - 研究发现随着任务推进，每步错误率本身会上升，这与人类通过练习进步形成对比，推测模型以自身容易出错历史为条件会增加未来出错可能性 [8] - 实验显示随着历史中错误率升高，后续步骤准确率急剧下降，验证模型会进行self-conditioning，这种性能下降不会通过增大模型规模而得到缓解 [8][26] - 与长上下文问题不同，扩大模型规模不能缓解self-conditioning效应，即使是参数2000亿以上的前沿大型模型仍然容易受到self-conditioning作用影响 [30] 思考模型的关键作用 - 近期思考模型不会受到先前错误影响，能够修正self-conditioning限制，顺序测试时计算量显著提升模型在单轮对话中可完成任务长度 [9] - 在没有思维链情况下，前沿大语言模型如DeepSeek V3连两步执行都无法完成，而具备思考能力版本R1则能执行200步，凸显行动前进行推理的重要性 [9] - 借助思维链，模型在单轮中能够执行步骤数量显著增加，经过强化学习训练的思维模型DeepSeek R1性能显著优于其经指令微调的对应模型DeepSeek-V3 [35] 模型性能基准测试结果 - 对前沿思考模型基准测试发现GPT-5思考版本（代号Horizon）能够执行超过1000步，远超能执行432步的Claude-4-Sonnet [9] - 实验显示开源权重模型在长时程执行方面仍在追赶仅通过API提供的模型，这凸显未来研究的机遇 [35] - 研究发现在显式提供所需知识和规划后，scaling模型大小仍能显著提高模型成功执行轮次数量，说明scaling模型价值不仅体现在让模型记住更多知识或更会寻找问题解答上 [7]

谁说Scaling Law到头了？新研究：每一步的微小提升会带来指数级增长

机器之心· 2025-09-16 12:01

Scaling Law的收益递减争议 - 很多人认为Scaling Law面临收益递减继续扩大计算规模训练模型的做法被质疑[1] - 研究发现即使模型在单步任务准确率提升变慢这些微小进步叠加能让完成任务长度实现指数级增长这在现实中更有经济价值[1] - 虽然scaling law显示LLM在测试损失等指标存在收益递减但模型现实世界价值源于智能体能完成任务的长度从这个角度更大模型能将单步准确率微小提升复合放大在任务完成长度上实现指数级跃升[3] 论文核心发现 - 论文标题The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs 来自剑桥大学等机构[5][6] - 长期以来完成长程任务一直是深度学习致命弱点自动驾驶demo炫酷但真正上路跑长途用了十多年 AI能生成惊艳图片但拍连贯一致长视频仍是难题[6] - 可以通过解耦推理或智能体任务中规划(planning)和执行(execution)需求来解决长程任务问题规划涉及决定检索信息或使用工具顺序执行是让规划变成现实[7] - 在思考的幻觉论文中 LLM显然知道规划最初正确执行许多步骤最终失败在于执行随着任务变长模型执行规划时更容易犯错[7] Scaling是否存在收益递减 - 虽然单步准确率提升幅度减小但准确率微小提升可复合放大导致模型能完成任务长度呈指数级增长[7] - 在显式提供所需知识和规划后 scaling模型大小仍显著提高模型成功执行轮次数量说明scaling价值不仅体现在让模型记住更多知识或更会寻找问题解答上[8] - 当步骤准确率超过70%后步骤准确率微小提升带来比指数级更快任务长度改善即使在短任务问答基准测试中准确率提升似乎放缓从数学角度仍可期待更长任务上取得显著收益[15] Self-Conditioning效应 - 随着任务推进每步错误率本身会上升这与人类形成对比人类执行任务时通常通过练习进步[9] - 由于模型训练很大部分根据上下文预测最可能下一个token 让模型以自身容易出错历史为条件会增加未来出错可能性[9] - 随着历史中错误率升高后续步骤准确率急剧下降验证模型会进行self-condition设定[9] - 除了长上下文问题 self-conditioning设定还会导致模型在长程任务中性能下降且这种性能下降不会通过增大模型规模缓解[9] 思考的影响 - 近期思考模型不会受到先前错误影响能够修正self-conditioning限制[10] - 顺序测试时计算量显著提升模型在单轮对话中可完成任务长度[10] - 没有思维链情况下 DeepSeek V3等前沿大语言模型连两步执行都无法完成而具备思考能力版本R1能执行200步凸显行动前进行推理重要性[10] - GPT-5思考版本(代号Horizon)能执行超过1000步远超能执行432步Claude-4-Sonnet[10] 经济价值衡量 - 人类劳动报酬往往按时间计算如果智能体经济价值源于它能完成任务时长那么单轮或短任务基准可能并非评估进一步投资大语言模型计算资源带来收益可靠参考[19] - 这些基准可能让人产生进展放缓错觉而更能体现经济价值指标模型能完成任务时长实际上仍在快速增长[19] - 如果一个模型能完成任务长度表明其经济价值那么持续投入增加计算量可能值得即便短任务基准测试给人进展放缓错觉[11] 实验设计与结果 - 通过显式提供必要知识和规划隔离执行失败情况将航班选择智能体示例中"先检索后组合"步骤串联起来[23] - 规划负责决定检索什么以及如何组合而执行是实际执行这些操作符合键值(key-value)词典抽象[23] - 即使去除了规划和知识要求长时程任务执行对LLM仍具挑战性所有模型第一步达到100%准确率但任务准确率在后续回合迅速下降[25] - 更大模型在更多轮次保持更高任务准确率导致任务长度呈现明显scaling趋势[27] - 随着轮次数量增加各轮次准确率稳步下降长上下文和self-conditioning都会导致准确率下降[28] - 当以无错误历史为条件时模型在第100轮轮次准确率低于初始值这与长上下文退化观察一致随着上下文中注入错误比例提高第100轮准确率持续下降证明self-conditioning效应[28] 单轮任务执行能力 - 没有思维链情况下不具备思考能力模型难以在单轮中完成两个步骤衔接[34] - 更大规模Qwen3 32B Gemma3 27B 以及DeepSeek-V3(670B)和Kimi K2(1026B)等前沿非思考型模型连复杂度为2单轮任务都无法完成[34] - 借助思维链模型在单轮中能执行步骤数量显著增加对于智能体行动前先进行推理至关重要[36] - 对于长时程执行任务顺序性测试时计算比并行测试时计算更有效[36] - GPT-5(代号Horizon)与其他模型如Gemini 2.5 Pro Grok 4和DeepSeek R1之间存在巨大差距[36] - 经过强化学习训练思维模型DeepSeek R1性能显著优于其经指令微调对应模型DeepSeek-V3[36] - 长时程执行是挑战开源权重模型仍在追赶仅通过API提供模型[37]

GPT-5 为啥不 “胡说” 了？OpenAI 新论文讲透了

腾讯研究院· 2025-09-12 16:58

文章核心观点 - OpenAI最新研究揭示语言模型幻觉产生的根本原因在于其统计学习本质，且后训练过程在当前评估体系下未能有效抑制幻觉，GPT-5可能通过非二元评估技术显著降低幻觉率 [9][12][24][32] 幻觉产生的必然性 - 幻觉是语言模型预训练阶段不可避免的副产品，因模型本质是通过统计规律生成内容，而非真实判断 [11][12] - 模型通过"是否有效"（IIV）判断器评估句子概率，但面对数据稀疏、复杂概念或训练数据错误时必然失效 [13][14] - 生成模型的错误率至少是IIV判断器错误率的2倍，因单个判断错误会衍生多种幻觉（如1+1=3和1+1≠2均属幻觉） [15][16] 后训练的局限性 - 后训练通过偏好反馈改变概率分布，将概率集中到"最佳答案"以减少不确定性幻觉，但可能增加过度自信风险 [19][20] - 主流评估基准（如GPQA、MMLU-Pro、SWE-bench）采用二元评分制，仅区分正确（1分）或错误（0分），系统性地惩罚"我不知道"的回答 [21][23] - 当前评估标准奖励猜测行为而非诚实回答，导致后训练在实践中未能有效引导模型降低幻觉 [24] 模型性能对比与技术路径 - DeepSeek R1采用二元奖励模型（ORM），在Vectara HHEM测试中幻觉率达14.3%，远高于其预训练模型DeepSeek V3的3.9% [30][31] - OpenAI o3使用过程奖励模型（PRM），通过逐步推理反馈降低幻觉率至6.8%，仅为DeepSeek R1的一半 [32] - GPT-5可能引入Universal Verifier技术，采用非二元评估标准（如评分细则Rubric），从根源上减少二元激励的负面影响 [32] 解决方向 - 后训练需引入带惩罚的评分机制，例如答对得1分、答错扣1分、过度自信答错扣9分，迫使模型成为"风险评估器"而非"得分优化器" [33] - 模型需专注于真实性而非单纯得分优化，才可能从根本上解决幻觉问题 [34]

AI模型幻觉

强化学习

后训练

Artificial Intelligence

Artificial Intelligence

GPT-5

DeepSeek R1

Nano Banana爆火之后，一个神秘的「胡萝卜」代码模型又上线了

机器之心· 2025-09-05 12:31

大模型命名趋势 - OpenAI率先使用水果名称"Strawberry"命名模型引发热议[2] - 命名潮流扩展至动物和蔬菜如Recraft的"red_panda"和谷歌的"Nano Banana"[4] - 新出现的"Carrot"模型延续了这种非正式命名趋势[5] Anycoder平台新模型 - 在Anycoder平台发现名为"Carrot"的新模型具备超强代码能力[5][7] - 该平台同时集成了DeepSeek V3、Gemini 2.5 Pro、Grok-4、GPT-5等多个明星模型[8] - 模型演示地址为https://huggingface.co/spaces/akhaliq/anycoder[10] Carrot模型能力展示 - 能制作兔子躲避胡萝卜的游戏实现胡萝卜作为子弹的编程效果[10] - 可生成体素宝塔花园和P5.js超粒子动画等复杂图形程序[12][14] - 知名博主AK使用该模型制作了"gemma-3-270m"聊天机器人运行效果良好[16] 模型来源猜测 - 网友猜测可能来自谷歌因谷歌刚发布Nano Banana图像模型[18] - 排除Kimi可能性因Kimi刚刚发布K2 0905版本[19] - 也有猜测可能来自阿里的Qwen3系列[21]

具身智能

Artificial Intelligence

Nano Banana（Gemini 2.5 Flash）

Artificial Intelligence

Nano Banana（Gemini 2.5 Flash）

Carrot

Grok - 4

GPT - 5

人工智能行业专题：探究模型能力与应用的进展和边界

国信证券· 2025-08-25 21:15

行业投资评级 - 人工智能行业投资评级为优于大市（维持）[2] 核心观点 - 海外大模型呈现差异化发展，企业调用考虑性价比，OpenAI在技术路径上相对领先，谷歌在端到端原生多模态领先，Anthropic强调实用性和编程场景领先[4] - 兴趣推荐成为AI赋能最明显的场景，主要应用包括广告和游戏行业，通过多模态提升内容理解，进而提升用户点击率、观看广告时长，拉动广告价格和广告位增长[4] - 模型能力不断增强，开始与应用在场景上竞争，通过五个典型案例探讨不同场景下模型与应用企业的竞合关系[4] - 投资建议推荐腾讯控股、快手、阿里巴巴和美图公司[4] 海外大模型差异化发展 - 根据OpenRouter数据，谷歌与Anthropic模型份额合计占据半壁以上江山，谷歌份额31.6%，Anthropic份额25.4%，OpenAI份额18.1%[8][9] - OpenAI技术路径领先，聚焦强化推理与专业领域能力，但端到端多模态生成能力较谷歌偏弱[13] - 谷歌端到端原生多模态领先，尤其在视频生成方向业内领先[13] - Anthropic强调实用性、编程场景领先，高准确度带来高市场占有率[13] - 模型调用价格方面，谷歌与Anthropic相比OpenAI有明显优势，例如Gemini 2.0 Flash输入价格0.10美元/百万tokens，输出价格0.40美元/百万tokens，而GPT-4.1输入价格2.00美元/百万tokens，输出价格8.00美元/百万tokens[10] 国内大模型近期进展 - 国内模型方向各家尚未拉开明显技术差距，需要观察在特定场景的差异化能力[4] - DeepSeek技术研究领先，采用混合注意力机制、动态路由MoE等架构创新，在代码生成、数学计算等专业领域表现出色，主打开源[16] - 阿里自研能力与综合能力强，模型参数与种类丰富，Qwen3.0在多模态和对话交互方面表现突出[16] - 其他厂商如字节豆包大模型各模态表现较均衡，百度文心大模型在中文场景深度优化，腾讯混元大语言模型基于DeepSeek改造[16] 兴趣推荐场景之广告 - AI对广告推荐作用主要体现在通过多模态提升对内容理解，进而提升用户点击率、观看广告时长，拉动广告价格和广告位增长[4] - 搜索和社交媒体推荐存在生产力代差，AI对后者赋能显著，抖音、快手、拼多多、小红书、腾讯视频号等偏推荐场景相比偏搜索场景赋能潜力更大[23] - META通过AI技术赋能广告量价齐升连续七个季度，AI带动广告曝光量增长，通过精准推荐、提升AI内容分发占比、数据标签体系完善提升Reels用户时长增长，AI带动广告单价增长，通过Advantage+工具带动广告主投放环节20% ROI提升[29] - 谷歌AI带动广告转化率改善，广告收入稳健增长，新功能推出后通常能带来20%左右效率改善，25Q2启用AI Max的广告客户通常能获得14%额外转化量，使用智能竞价探索的广告系列平均转化量增长19%[35][37] - Reddit广告收入大幅增加，25Q2推出AI广告工具Reddit Community Intelligence，包含Reddit Insights和Conversation Summary Add-ons，点击率比标准图片广告高出10%以上[40][42] - 腾讯广告25H1连续两个季度实现20%同比高增长，主要来自广告价格CPM提升，AI部署带来更高点击率，微信小店和小游戏带来更完善闭环交易活动[46] - 快手广告收入增长主要驱动是CPM提升，AI赋能广告在营销素材增强、营销投放Agent和营销推荐等环节，25Q1 AIGC营销素材带来日均消耗约3000万人民币，25Q2可灵收入2.5亿元[49] 兴趣推荐场景之游戏 - 游戏是兴趣推荐重要场景，海外AIGC游戏平台Roblox通过AI升级推荐算法，让更多新游戏获得曝光，25Q1平台Top100游戏中有24款是过去一年内推出的，与24Q1相比TOP15游戏推出更多内容更新[4][53] - 由于更多新游戏获得曝光和竞争推荐，平台11-50名的游戏流水同比增长超过1倍，占总流水增量的40%[4][53] - Roblox不断推出多款AI游戏创作工具以降低创作门槛，包括编程助手、各种游戏素材生成工具等，25Q1推出Roblox文本生成功能，开源3D模型Cube 3D，生成超过100万个3D模型[54][55] 模型能力增强与应用边界的争夺 - 情景一：大模型直击原有产品痛点，新增AI原生竞争对手，例如LivePerson面临AI引入新竞争者、客户流失严重，净收入留存率从2024年第二季度83%下降到2025年第二季度78%[64][65] - 情景二：大模型加速原有产品功能开发，同时创新AI原生产品，例如美图公司在原有主力产品中推出更多AI功能，驱动付费率提升，订阅渗透率从23Q1末2.9%提升至25Q2末5.5%[73] - 情景三：AI产品与传统业务收入存在此消彼长相互替代关系，例如C3.AI传统订阅收入增长承压，2025财年传统订阅收入3.276亿美元，同比+18%，但AgenticAI业务年化ARR约6000万美元、生成式AI收入同比增长超100%[78] - 情景四：AI或颠覆原有需求流量入口，市场担忧部分公司会被AI颠覆，包括搜索、广告、人力资源、旅游服务、IT软件等领域公司[79][81] - 情景五：AI在编程、客服等场景降本显著，企业人均产出持续提升，例如Shopify、Applovin、Twilio等公司在员工人数减少的同时，人均产出大幅增加[83]

实测DeepSeek V3.1：不止拓展上下文长度

自动驾驶之心· 2025-08-22 07:34

核心观点 - DeepSeek V3.1相比V3版本在多个维度实现性能提升，包括上下文长度扩展至128K、编程能力增强、写作风格更人性化、数学问题解答更清晰、翻译准确性提高，但在部分细节处理（如冷门知识回答）仍存在瑕疵 [1][3][9][13][22][25][30][37] - 模型在非推理任务中达到SOTA水平，例如在aider测试中得分71.6%，优于Claude Opus 4且成本低68倍，同时在SVGBench基准测试中表现优于其他变体 [43][44] - 用户可通过多种渠道访问模型，包括Hugging Face平台、网页端、APP及小程序，且API调用成本具竞争力（输入0.004元/千Token，输出0.016元/千Token） [8][10] 技术规格更新 - 上下文长度从65K扩展至128K，最大输入98,304 Token，支持多种张量格式 [1][10] - 思维链长度提升至32,768 Token，最大回复长度16,384 Token，较V3版本（8,192 Token）翻倍 [10] - 模型参数量为685B（满血版），较V3的671B略有增加 [10] 性能测试结果编程能力 - V3.1代码生成更全面，增加异常处理（如检查GIF格式）、依赖库安装说明及命令行使用指南，而V3仅提供基础压缩代码 [13][14] - 实测中V3代码压缩18.3MB文件后仍超10MB需二次压缩，V3.1直接满足要求但输出GIF速度略慢 [15][18] 写作与翻译 - 写作风格从V3的理性平铺直叙变为V3.1的诗意表达，更贴近人类情感化输出 [22] - 翻译长难句能力提升（V3.1减少括号补充说明），但存在简单词漏译（如"several"） [30] 数学与冷门知识 - 双曲线离心率问题（答案为2√2）两者均正确，但V3.1展示完整推导过程（含公式$$e=\sqrt{1+\frac{b^2}{a^2}}$$） [25][26] - 冷门知识问答中两者均错误判断构树果实为核果（实际应为瘦果），且V3.1出现中英文混用（"conclusion"）及回答偏题 [31][37][38] 市场反馈与基准表现 - Hugging Face热度升至第二，Reddit测试显示aider得分71.6%为非推理模型SOTA，成本仅为Claude Opus 4的1/68 [41][42][43] - SVGBench基准中V3.1得分53.1%优于思考版本（47.8%）及R1-0528（40.4%），但低于领先模型（如horizon-beta 67.4%） [44] - 用户报告新增特殊Token及自动搜索功能，物理理解能力（如动态GIF生成）有所提升 [45][47]

实测DeepSeek V3.1，不止拓展上下文长度

量子位· 2025-08-20 15:48

DeepSeek V3 1与V3的差异分析核心更新 - 上下文长度从65K扩展至128K 支持多种张量格式 [1][7] - 网页端界面将【深度思考(R1)】简化为【深度思考】手机端仍在同步更新中 [2] - 当前Base版本可通过Hugging Face下载完整版支持网页 APP和小程序访问 [6] 性能参数对比 - V3 1输入成本0 004元千Token 输出成本0 016元千Token Batch调用成本减半 [8] - V3输入成本0 002元千Token 输出成本0 008元千Token Batch调用成本同样减半 [8] - V3 1免费额度为各100万Token 有效期180天 V3未明确标注免费额度 [8] 功能测试表现编程能力 - V3 1在Python代码生成中考虑更全面提供依赖库安装命令行使用说明及工作原理 [12][13] - 实测18 3MB GIF文件压缩 V3需二次压缩才能低于10MB V3 1方案更高效 [14][15] 情境写作 - V3输出风格理性平铺直叙 V3 1转为文艺诗意化表达差异显著 [20] 数学理解 - 双曲线离心率计算题两者均正确但V3 1推导过程更规范 [22][23][24] 翻译水平 - V3 1对长难句理解更优但遗漏"several"等简单词翻译 V3偏好括号补充说明 [29] 冷门知识 - 构树果实分类问题两者均判断为核果与小红书博主实验结论(瘦果)存在分歧 [30][37] 第三方评测与用户反馈 - 在aider测试中以71 6%得分超越Claude Opus 4 成本低68倍 [42] - SVGBench基准显示V3 1表现优于V3 1(思考模式)及R1 0528 [43][44] - 用户发现新增4个特殊token 关闭搜索时仍会自动触发搜索 [45] 物理模拟能力 - V3 1对"旋转六边形内弹跳球"的模拟效果优于V3 [47] 市场热度 - 发布后迅速成为Hugging Face热门话题第四截至发稿升至第二 [40][41]

自动驾驶之心· 2025-08-15 07:33

MOE架构基本原理 - MOE全称为混合专家模型核心思想是使用多个专家FFN替代原Transformer架构中的前馈层每个token会选择top-K个专家进行前向传递[2][4][6] - MOE层由路由器(门控和选择器)和n个专家FFN组成路由器通过softmax操作选择不同专家的权重选择器确定top-K专家[6] - 在Switch Transformers中采用top-K=1策略主要考虑专家并行方案时的通信计算和存储效率平衡[9][10][14] - 引入容量因子概念专家容量=(总token数/专家数量)×容量因子用于控制每个专家处理的token数量防止溢出或资源浪费[13][18] Switch Transformers优化方案 - 采用简单稀疏路由和高效稀疏路由两种方案简单稀疏路由针对单个token选择专家高效稀疏路由针对专家并行设计[7] - 负载不均衡问题通过可微的负载均衡辅助损失函数解决使token在专家分布上尽可能均匀[17][20] - 专家容量静态分配可能导致溢出或浪费动态计算时需要平衡容量因子设置[15][16] DeepSeek V1架构创新 - 提出细粒度专家划分策略通过拆分FFN中间隐藏维度增加专家数量在保持参数总量不变情况下提升专家专业化程度[22][25] - 引入共享专家分离机制设置特定共享专家始终激活用于捕捉通用知识减少其他路由专家间的冗余[24][26] - MOE层输出由三部分组成：共享专家输出 Top-K路由专家输出和残差连接[30] - 设计专家级别和设备级别双重负载均衡损失函数解决训练不充分和计算瓶颈问题[32][35] DeepSeek V2优化重点 - 实施设备受限路由策略将每个token的激活专家所在GPU设备数量限制为3个显著降低通信开销[37] - 新增通信负载均衡损失函数优化设备间token分配均衡性[38][39] - 采用token丢弃策略对超过专家容量的token按分值降序丢弃仅影响当前MOE层计算[42] DeepSeek V3技术演进 - 将门控函数从SoftMax改为Sigmoid 可能出于降低计算复杂度考虑特别在专家数量增至256个时更明显[44][45] - 弃用所有辅助负载均衡损失引入可学习偏置项bi 通过动态调整偏置值实现负载均衡[46][47] - 新增序列级别辅助损失函数防止单个序列内出现极端不平衡情况[49][50] - 完全取消token丢弃策略通过偏置项和序列级损失实现良好负载均衡[52] MOE架构发展脉络 - MOE架构早在1991年就已提出但直到2023年底Mixtral 8*7B模型发布后才受到广泛关注[2] - 国内Qwen和MiniMax等公司也推出MOE模型但架构实现相对DeepSeek更简单[3] - DeepSeek从V1到V3持续优化负载均衡和通信效率体现对高效计算的一贯追求[36][43] - MOE模型特别适合云计算并行推理场景在AI模型中的地位日益重要[3]