混合专家(MoE)架构

搜索文档
华为盘古大模型与腾AI计算平台,共同构建软硬一体的AI技术体系
国泰海通证券· 2025-08-06 21:52
行业投资评级 - 报告未明确提及行业投资评级 [1] 核心观点 - 华为通过盘古大模型与昇腾AI计算平台构建软硬一体的AI技术体系,从追赶SOTA模型转向为昇腾硬件量身定制模型架构 [2] - 盘古大模型演进的核心是解决大规模分布式系统中的效率难题,特别是混合专家(MoE)架构的负载不均衡问题 [2] - 华为推出Pangu Pro MoE和Pangu Ultra MoE两种创新路径,分别通过架构创新和系统级优化最大化昇腾硬件效率 [2] - CloudMatrix AI基础设施通过统一总线网络等技术创新,为上层软件创新提供物理基础 [4] - 全栈协同是华为AI的核心战略路径,包括模型开放和硬件生态建设 [5] 目录总结 盘古大模型演进 - 盘古大模型从PanGu-α(2000亿参数)起步,基于昇腾910和MindSpore框架 [6] - PanGu-Σ(1.085万亿参数)首次尝试稀疏化架构,采用随机路由专家(RRE)和ECSS异构计算方案 [8][9][11] - 盘古3.0推出"5+N+X"三层架构,面向政务、金融等行业深度优化 [15][16] - 盘古5.5全面拥抱MoE架构,Pangu Ultra MoE(718B参数)和Pangu Pro MoE(72B参数)针对昇腾硬件优化 [20][21] Pangu Pro MoE创新 - 采用分组专家混合(MoGE)架构,通过结构性设计解决负载不均衡问题 [26][28] - 在昇腾800I A2硬件上实现Prefill阶段吞吐量比72B稠密模型高203% [40] - 推理阶段达到平均每卡1148 tokens/s,使用多令牌预测后提升至1528 tokens/s [40] Pangu Ultra MoE优化 - 采用仿真先行设计方法,通过系统仿真确定最优模型架构 [48] - 选择Dropless路由和EP-Group辅助损失,优先保障模型性能 [49][51] - 在6000卡昇腾集群上实现30%模型算力利用率(MFU),相对基线提升58.7% [55] CloudMatrix基础设施 - 采用PDC解耦架构,将Prefill、Decode和Caching分离为独立资源池 [66] - 通过统一总线(UB)网络实现跨节点通信延迟仅1.9µs,带宽164GB/s [88] - 昇腾910C NPU采用双Die封装和异构设计,单芯片提供752 TFLOPS BF16算力 [97] - CANN软件栈连接上层框架与底层硬件,支持算子融合等优化 [102]
专为智能体应用打造,智谱新一代旗舰模型GLM-4.5来了!
硬AI· 2025-07-29 23:50
模型架构与参数 - 采用混合专家(MoE)架构,提供两个版本:GLM-4-5总参数量3550亿,激活参数320亿;GLM-4-5-Air总参数1060亿,激活参数120亿 [1][4][6] - 训练数据覆盖15万亿tokens通用语料,另有8万亿tokens针对代码、推理、Agent任务的精调数据,辅以强化学习增强能力 [7] 性能与排名 - 综合性能全球第三,在MMLU Pro、MATH500等12项评测中位列国产和开源模型首位 [3] - 在真实代码智能体人工评测中表现国内最佳,综合能力达到开源SOTA水平 [4] - 在52个编程任务测试中,任务完成度与工具调用可靠性优于Claude Code、Kimi-K2等模型,接近Claude-4-Sonnet [8] 技术特点 - 支持两种模式:复杂推理的思考模式和即时响应的非思考模式 [4] - 参数效率显著优于DeepSeek-R1和Kimi-K2,SWE-bench榜单中性能/参数比更优 [8] - 高速版生成速率达100 tokens/秒,支持高并发部署 [12] 商业化与成本 - API调用价格低至输入0-8元/百万tokens,输出2元/百万tokens [1][10] 应用场景展示 - 发布多个Agent应用DEMO:模拟搜索引擎、弹幕视频平台模拟器、可玩Flappy Bird游戏、图文自动排版PPT工具 [14]
MiniMax追着DeepSeek打
经济观察网· 2025-06-18 19:32
模型技术规格 - MiniMax M1模型支持100万个token的上下文长度,是DeepSeek R1(12.8万Token)的8倍,仅次于谷歌Gemini 2.5 Pro [1] - MiniMax M1总参数量为4560亿,每个token激活459亿参数,而DeepSeek R1总参数量6710亿但每个token仅激活370亿参数 [1] - 采用混合专家(MoE)架构,与DeepSeek R1相同 [1] 性能与成本优势 - 生成10万个token时仅消耗25%的浮点运算,64000个token推理任务计算能力需求不到DeepSeek R1一半 [2] - 强化学习阶段仅使用512块H800 GPU,耗时3周,成本53.5万美元,比预期低一个数量级 [2] - 核心技术包括线性注意力机制(Lightning Attention)和强化学习算法CISPO,后者通过裁剪采样权重提升效率 [2] 商业化定价策略 - API服务采用分级计费:0-32k Token档输入0.8元/百万Token,输出8元/百万Token;32k-128k档输入1.2元/百万Token,输出16元/百万Token;128k-1M档输入2.4元/百万Token,输出24元/百万Token [3] - 前两档定价低于DeepSeek R1(输入3.95元/百万Token,输出15.4元/百万Token),第三档为独有超长文本服务 [3] 行业动态与开源计划 - 宣布未来5天内每天发布一项新产品或新技术 [1] - 模型代码和权重已在Hugging Face和GitHub开源,支持透明检查与本地部署 [3] - DeepSeek R1曾以500-600万美元GPU成本训练出对标OpenAI o1的模型,引发行业争议 [2]
200亿AI独角兽反击,MiniMax首款推理模型对标DeepSeeK,算力成本仅53万美元
华尔街见闻· 2025-06-17 19:57
核心观点 - 中国AI独角兽MiniMax推出首款推理模型M1,性能接近海外顶尖模型,部分任务超越DeepSeek、阿里、字节及OpenAI等[1][3] - M1采用混合专家架构和线性注意力机制,支持100万Token上下文输入,与谷歌Gemini 2.5 Pro并列业内最高[3] - 训练成本仅53.74万美元(约380万人民币),比预期少一个数量级[1][6] - 在生成64K token时算力消耗不到DeepSeek R1的50%,100K token时仅为其25%[1][7] 模型性能 - 总参数4560亿,每token激活参数459亿[3] - 在17个评测集中,SWE-bench软件工程能力测试超过55%,长上下文理解任务全球第二[4] - 数学测试AIME 2024得分86.0,接近Gemini 2.5 Pro的91.6[5] - 长上下文任务OpenAI-MRCR(128k)得分73.4,超越Claude 4的76.8[5] 技术架构 - 采用混合专家(MoE)架构和线性注意力机制(Lightning Attention)[3] - 开发新型强化学习算法CISPO,比字节DAPO算法训练效率提升2倍[6] - 使用512块英伟达H800 GPU训练三周完成强化学习[6] 商业策略 - 模型已开源并在MiniMax APP/Web端免费升级[8] - API采用区间定价策略,128k-1M区间价格显著低于DeepSeek-R1[8] - 被开发者评价为"性价比新王",成为继字节豆包后的"价格杀手"[8] 行业定位 - 公司为腾讯和阿里巴巴支持的"AI六小龙"成员[9] - M1是5天发布周的首个产品,后续将推出智能体应用及视频/音乐模型[9] - 创始人称"第一次感觉到大山不是不能翻越",展现技术突破信心[1][9]
速递|Llama 4突袭周末发布!Meta用2万亿参数怪兽硬刚GPT-4.5,却暗禁欧盟用户
Z Finance· 2025-04-06 15:45
文章核心观点 Meta发布新一代AI模型集合Llama 4,该系列模型有新特性和优势,但授权条款或引发争议,且在应答策略上有调整以应对行业问题 [1][2][9] 模型发布情况 - Meta在周六发布Llama 4系列,含Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth四款新模型 [1] - Scout和Maverick已通过Llama.com及Hugging Face等平台开放获取,Behemoth仍在训练阶段 [1] - Meta旗下AI助手Meta AI完成升级,将在40个国家启用Llama 4技术,多模态功能仅限英语版美国用户使用 [1] 研发推动因素 - 中国AI实验室深度求索开源模型成功,性能超Meta前代旗舰Llama模型,推动Llama研发进程加速 [1] - 据传Meta紧急组建战情室,试图破译深度求索降低模型运行和部署成本的技术路径 [1] 授权条款情况 - 欧盟境内注册或主要营业地的用户及企业被禁止使用或分发Llama 4模型,受该地区AI与数据隐私法规合规要求影响 [2] - 月活用户超7亿的企业须向Meta申请特殊授权,Meta拥有绝对审批权 [2] 模型架构特点 - Llama 4是Meta首个采用混合专家(MoE)架构的模型系列,能提升训练及查询应答的算力效率 [4] - MoE架构将数据处理任务分解为子任务,交由小型专业化“专家”模型处理 [4] 模型参数情况 - Maverick总参数量达4000亿,通过128个“专家”模型仅激活170亿参数 [4] - Scout激活170亿参数,包含16个专家模型,总参数量1090亿 [4] - Behemoth激活参数达2880亿,包含16个专家模型,总参数近2万亿 [6] 模型性能表现 - Maverick在编程、推理等测试中超越OpenAI的GPT - 4o和谷歌Gemini 2.0,但逊色于部分最新顶级模型 [5] - Scout在文档摘要和大规模代码库推理任务有优势,拥有1000万token的超大上下文窗口 [5] - Behemoth在数学解题等STEM能力评估中表现优于部分模型,但不及Gemini 2.5 Pro [6] 模型架构差异 - Llama 4全系均未采用类似OpenAI o1和o3 - mini的专用“推理”架构 [9] 模型应答策略调整 - Meta对Llama 4全系模型调优,使其更少拒绝回答“争议性”问题,回应涉及政治社会议题的提问 [9] - Meta表示新模型在拒绝回答的提示词选择上“显著更平衡” [9] 行业相关问题 - AI偏见是行业公认的技术难题,马斯克自创的xAI公司也未能造出完全政治中立的聊天机器人 [9] - OpenAI等公司持续调整模型策略,使其能应答更多过往被规避的问题 [10]