华为放出「准万亿级MoE推理」大招，两大杀手级优化技术直接开源

行业趋势：大模型竞争焦点转向推理效率 - 大模型竞争焦点从训练规模与能力突破转向推理效率，推理效率成为影响模型能否落地的关键变量[2] - 推理环节比拼的是以低成本、低延迟将模型稳定运行起来的能力，尤其对于超大规模MoE模型而言[3] - 推理成本是否可控决定了大模型的可用性，并直接影响其能否高效进入业务场景[3] 超大规模MoE模型推理面临的挑战 - 超大规模MoE模型推理面临计算、通信、访存和并行策略等最优策略选择的挑战[3] - 在高度耦合的推理链路中，调度或资源分配上的微小偏差可能被放大为延迟上升、吞吐下降[3] - 大EP部署下MoE模型推理体系异常复杂，每个环节都可能成为大规模部署中的瓶颈[3] 华为昇腾技术栈解决方案概述 - 华为推出面向准万亿参数MoE推理的完整技术栈，包括openPangu-Ultra-MoE-718B-V1.1模型和昇腾亲和加速技术[2] - 该技术栈使超大规模MoE模型具备了走向生产级部署的现实可行性[2] - 解决方案涵盖框架层面、调度层面到算子层面的系统性优化[10] 模型核心参数与能力 - openPangu-Ultra-MoE-718B-V1.1总参数为718B，激活参数量为39B[4] - 该模型基于昇腾硬件训练，提升了Agent工具调用和其他综合能力[4] - 模型的量化版本openPangu-Ultra-MoE-718B-V1.1-Int8已在昇腾硬件上构建完整推理路径[4] 框架层面优化：Omni-Infer与Omni Proxy - Omni-Infer为vLLM、SGLang等主流开源推理框架提供昇腾亲和加速库[11] - Global Proxy在Omni-Infer V0.3.0中带来超过10%的推理性能提升[11] - Omni Proxy作为第二代请求调度特性，基于Nginx打造，解决传统调度器在大模型推理场景下的局限性[13] Omni Proxy五大创新技术 - 将推理请求拆解为10个细粒度生命周期阶段，实现基于全链路性能数据的精确请求级调度[17] - 提供sequential和parallel两种模式，适配vLLM与SGLang在P/D分离场景下的不同KV Cache传输方式[19] - 通过APC感知实现高效KV缓存复用与智能调度，减少重复计算与节点传输开销[22] - 在上游预先完成对话模板展开与tokenizer处理，在多机P/D分离场景下降低约30%的tokenizer开销[24] - 通过对请求按长度与等待时间加权排序，实现长短请求的动态平衡和节点精准匹配[26] 全栈推理加速体系 - 推理加速套件包含服务扩展、任务调度、专家管理到算子加速等组件[30] - Omni Placement通过Layer-wise与Uneven机制实现大规模专家的高效调度[31] - MTP提高多token并行生成能力，Fusion Operator通过算子融合减少冗余计算[31] 算子层面创新：AMLA技术突破 - AMLA将昇腾硬件算力利用率最高推至86%，在推理场景下绝无仅有[36] - AMLA采用"以加代乘"的高性能MLA算子，通过数学层面对计算逻辑进行解构[36] - 在昇腾硬件上跑出最高614 TFLOPS性能，算力利用率达到理论峰值的86.8%[45] - 远高于当前最好的开源FlashMLA（在NVIDIA H800 SXM5上算力利用率约66.7%）[45] 技术组合的商业价值 - 技术组合让准万亿参数MoE推理在成本、性能与稳定性之间找到可落地的平衡点[50] - 为超大规模MoE模型迈向商业可行性奠定了基础[50] - 模型能力与推理效率的双向提升让大模型加速走向产业化落地阶段[50]