混合专家模型(MoE)
搜索文档
华为盘古首次露出,昇腾原生72B MoE架构,SuperCLUE千亿内模型并列国内第一
机器之心· 2025-05-28 16:09
混合专家模型技术革新 - 华为盘古团队提出分组混合专家模型(MoGE),通过分组机制解决传统MoE专家激活频次不均衡问题,在4K昇腾集群实现高效训练 [2] - MoGE架构下盘古Pro MoE模型(72B总参数/16B激活参数)在昇腾300I Duo和800I A2硬件上分别实现321 tokens/s和1528 tokens/s的推理速度 [2] - 分组均衡路由技术强制每个token在预定义专家组内激活等量专家,确保跨设备负载均衡,组间负载差异为0 [12][21] 模型性能表现 - 盘古Pro MoE以72B总参数量在SuperCLUE榜单获59分,千亿参数以内模型并列国内第一,16B激活参数媲美更大规模模型 [3] - 在MMLU-Pro(63.5 EM)、C-Eval(90.6 EM)、HumanEval(63.7 Pass@1)等基准测试中超越同规模稠密模型和MoE模型 [27] - 对比DeepSeek-V2的专家负载集中现象(最高30% token量),盘古Pro MoE实现各专家12.5% token处理的均匀分布 [29] 昇腾硬件协同优化 - 采用分层仿真策略优化昇腾300I Duo/800I A2平台的算子级编译,通过TFLOPS、内存带宽等硬件参数关联搜索最优并行策略 [19][22] - 结合MTP解码和多token优化,昇腾300I Duo单卡吞吐从201 tokens/s提升至321 tokens/s,800I A2平台高并发下达1528 tokens/s [24] - 深度融合昇腾硬件加速架构的并行特性,实现从算法设计到系统落地的全栈创新 [6] 行业应用价值 - 动态负载均衡技术有效降低云端推理成本,支持高并发实时场景,轻量化引擎适配昇腾芯片赋能百亿级模型部署 [31] - 推动大模型从参数竞赛转向实效主义,为企业级应用提供高效普惠的智能底座 [30] - 在代码生成、数学推理等复杂任务中展现同规模最优性能,为AI工业化部署提供新范式 [7][28]
华为+DeepSeek,终于不再“服务器繁忙”?
虎嗅APP· 2025-05-20 22:00
大模型与MoE架构挑战 - 主流MoE架构大模型存在硬件成本高、效率低等"先天不足",中国企业面临芯片堆砌与效率挖掘的挑战[1] - 华为作为智能基础设施提供商,通过数学算法和工程积累为DeepSeek提升效率及用户体验[1] MoE模型的冷热专家问题 - MoE模型通过分配token给不同专家网络实现高效扩展,但面临负载不均衡的严峻挑战[4] - 冷热专家现象表现为:热专家调用频率比冷专家高一个数量级,导致推理延迟增加、吞吐量受限[4] 华为OmniPlacement负载均衡技术 - 通过专家重排、层间冗余部署和近实时动态调度提升MoE模型推理性能[7] - 动态优先级调整:实时统计专家调用频率,优先将高频专家部署在强计算节点[7] - 通信域优化:分析批次内激活卡数,减少跨节点通信延迟[7] 层间高频专家冗余部署 - 为热专家分配冗余实例降低跨节点通信开销,提升系统吞吐量[8] - 动态资源分配:根据实时资源占用和调用频率调整冗余实例比例[9] - 层间差异化配置:高负载层分配更多冗余实例,低负载层减少冗余节省显存[9] 近实时调度与监控机制 - 毫秒级动态调整专家分配,迭代优化部署模式降低计算开销[10] - 独立计算流运行监控任务,避免干扰推理主流程[10] - 层间流水线设计实现专家权重动态调整,降低高负载场景延迟[10] OmniPlacement框架特性 - 高兼容性:支持多种MoE模型架构,无缝集成现有推理系统[12] - 低时延开销:优化数据处理和调度流程减少额外计算开销[12] - 模块化设计:数据统计、算法运行和专家调度三大模块解耦[12] 性能验证与未来方向 - 实验显示OmniPlacement使DeepSeek-V3推理延迟降低10%,吞吐量提升10%[14] - 未来研究方向包括调度算法优化、自适应专家选择和框架扩展[15] - 技术突破体现华为在芯片架构、算法和软件生态的长期积累[15]
华为发布OmniPlacement技术,实现超大规模MoE专家最优动态部署,提升昇腾推理系统吞吐10%
雷峰网· 2025-05-20 21:01
混合专家模型(MoE)技术发展 - 混合专家模型通过将输入token分配给不同专家网络实现高效扩展,显著提升大语言模型处理复杂任务的能力[2] - 当前MoE模型面临核心挑战是负载不均衡问题,表现为热专家调用频率比冷专家高出一个数量级以上[2] - 负载不均导致三大问题:计算节点成为瓶颈延长推理时间、系统吞吐量受限、资源利用率不足[2][3] 华为OmniPlacement技术创新 - 提出三层技术方案:计算均衡联合优化、层间冗余部署、近实时动态调度[4] - 核心算法通过分析专家激活数据优化部署顺序,降低负载不均现象[4] - 采用层间差异化冗余策略,高负载层分配更多冗余实例,节省显存同时提升吞吐量[4][5] - 动态调度机制实现毫秒级专家分配调整,监控与推理流程分离保障系统稳定性[6][8] 开源框架技术特性 - 开发vLLM推理优化框架Omni Placement,具备模块化架构设计[7] - 框架四大优势:兼容多种MoE架构、时延开销低于1%、模块化支持快速迭代、可扩展新算法[9] - 应用昇腾算力并整合开源最佳实践,近期将全面开源回馈社区[1][10] 实验验证效果 - 在DeepSeek-V3模型测试中,相比基线方法实现10%延迟降低和10%吞吐量提升[14] - 高并发场景下通过冗余部署和动态调度有效缓解负载瓶颈[12][14] - 系统在动态输入环境下保持稳定,未出现性能波动或中断[14] 未来技术方向 - 重点开发智能调度算法提升系统自适应能力[16] - 探索基于输入特征的自适应专家选择机制[16] - 扩展框架功能支持更多类型MoE模型[16] - 在智能客服等工业场景展现应用潜力,提升用户体验和系统吞吐[15]
华为:让DeepSeek的“专家们”动起来,推理延迟降10%!
量子位· 2025-05-20 13:12
混合专家模型(MoE)技术突破 - 混合专家模型(MoE)通过将任务分配给擅长处理的专家网络提升系统性能,但负载均衡问题成为影响推理性能的关键因素 [1][2][3] - MoE模型中专家网络调用频率差异可达一个数量级以上,导致系统推理时间延长、资源利用率受限 [4][5] - 华为团队提出的OmniPlacement技术使DeepSeek-V3推理延迟降低约10%、吞吐量提升约10%,并计划全面开源该方案 [6][7][28] OmniPlacement技术原理 - 采用基于计算均衡的联合优化算法,通过动态优先级调整、通信域优化和层间差异化部署显著降低负载不均 [9][10][11][12] - 针对高频专家实施层间冗余部署策略,通过分配冗余实例降低跨节点通信开销 [14][15][17] - 设计近实时调度与动态监控机制,包含动态资源分配、层间差异化配置和预测性分配功能 [18][19][20] 技术实现框架与效果 - 开发模块化推理优化框架OmniPlacement,核心算法与推理流程分离,支持独立调度和灵活调整 [21][22][30] - 实验验证显示该技术在多节点GPU集群和高并发场景下表现稳定,运算效率和资源利用率显著提升 [24][25][26] - 框架具备高兼容性、低时延开销和可扩展性,支持多种MoE模型架构和动态算法添加 [29][30][31]
DeepSeek-R1与Grok-3:AI规模扩展的两条技术路线启示
Counterpoint Research· 2025-04-09 21:01
核心观点 - DeepSeek-R1 和 Grok-3 代表了AI发展的两种不同路径:前者通过算法创新和高效资源利用实现高性能,后者依赖大规模计算资源投入 [2][8] - 行业趋势正从“原始规模主导”转向“战略效率优先”,算法设计、混合专家模型(MoE)和强化学习成为关键杠杆 [8][10] - 未来AI发展将更注重投资回报率(ROI),平衡规模扩展与算法优化 [8][10] 模型性能与资源对比 - DeepSeek-R1 仅使用约2000块NVIDIA H800 GPU即达到全球前沿推理模型性能,展现高效训练能力 [2] - Grok-3 动用约20万块NVIDIA H100 GPU,性能略优于DeepSeek-R1、GPT-o1和Gemini 2,但资源消耗相差百倍 [2][8] - 两者性能相近,但资源投入差异显著,凸显算法创新可抗衡纯计算规模 [8] 发展路径差异 - Grok-3 采用“蛮力策略”,依赖数十亿美元GPU计算规模,边际性能提升显著但ROI递减 [8] - DeepSeek-R1 通过混合专家模型(MoE)、推理强化学习和高质量数据,以最小硬件代价实现顶尖性能 [8] - 行业可能从“规模法则”转向“算法突破+工程实用主义”的全局发展观 [10] 未来AI趋势 - 集中式训练项目(如Grok-3)成本过高,仅限少数巨头参与,中小机构需转向效率优化策略 [10] - 混合专家模型(MoE)、稀疏化、改进微调和强化学习将成为核心,降低资源消耗 [10] - 新数据训练与强基础模型结合(如RAG或定期微调),可避免持续大规模计算负担 [10]
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
量子位· 2025-04-06 10:33
Llama 4系列模型发布 - Meta发布首个基于MoE架构的Llama 4系列模型,包括Llama 4 Scout、Llama 4 Maverick和尚未推出的Llama 4 Behemoth [3][4] - 前两款被官方称为"最先进的型号"和"最好的多模态型号",其中Llama 4 Scout有16位专家的170亿激活参数,Llama 4 Maverick有128位专家的170亿激活参数 [4][5] - Llama 4 Behemoth为2万亿参数的教师模型,多个基准测试超过GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro [5][50][52] 模型性能与技术特点 - Llama 4 Maverick在大模型竞技场排名中得分1417,超越DeepSeek-V3成为排名第一的开源模型 [8][9] - 系列模型采用MoE架构,Llama 4 Scout和Maverick分别有16和128个专家模型,总参数分别为17B和400B [15][16][17][58] - 提供超长上下文窗口,Llama 4 Scout达100万token,预训练后长度泛化能力达256K [20][27] - 原生多模态设计支持图像理解,在MMMU、ChartQA等基准测试中超越Gemma 3、Gemini 2.0等竞品 [30][31][43] 训练与技术创新 - 预训练使用FP8精度实现390TFLOPs/GPU效率,训练数据达30万亿token是Llama 3的两倍 [63][64] - 采用MetaP新技术设置超参数,在200种语言上训练,词库总量是Llama 3的10倍 [62][63] - 后训练采用轻量级SFT>在线RL>轻量级DPO的课程策略,通过数据过滤提升推理和编码能力 [68][69][70] - 创新iRoPE架构使用交错注意力层无需位置嵌入,支持"无限"上下文长度目标 [70] 商业化与竞争格局 - Llama 4 Maverick推理成本仅$0.19-$0.495/百万token,价格显著低于GPT-4o等竞品 [49] - 行业竞争加剧,OpenAI计划提前发布o3和o4-mini应对,DeepSeek等中国厂商也在加速创新 [80][81] - 模型已在官网和Hugging Face开放下载,支持12种语言方便全球开发者部署 [13][45]