昇腾300I Duo

搜索文档
大模型推理,得讲性价比
虎嗅APP· 2025-06-06 18:10
HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成 为大模型推理提效的关键路径。华为团队重磅 ...
MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
机器之心· 2025-06-06 17:36
混合专家模型技术突破 - 华为推出昇腾平台原生设计的Pangu Pro MoE 72B模型,显著降低计算开销并在SuperCLUE千亿内模型评测中并列国内第一 [2] - 通过软硬协同优化实现推理性能提升6~8倍,昇腾300I Duo单卡吞吐达321 tokens/s,昇腾800I A2单卡吞吐飙升至1528 tokens/s [3] - 采用分层混合并行(HP)策略,Decode吞吐性能相比纯TP方案提升33.1%,通过模块化分工优化通信效率 [5][6][7] 通信与计算协同优化 - 提出TopoComm优化方案,同步次数降低35%,链路有效带宽提高21%,通信数据压缩25%,AllGather通信耗时降低39% [9] - 开发DuoStream多流融合方案,实现计算与通信细粒度并发调度,解决Expert模块通信瓶颈 [12] - 构建GMMRS与AGMM融合策略,关键通信路径流水掩盖,显著提升硬件资源利用率 [12] 高性能算子创新 - 开发MulAttention融合算子,Attention计算加速4.5倍,数据搬运流水占用率89%,访存带宽利用率87% [16] - 推出SwiftGMM矩阵计算引擎,GMM计算加速2.1倍,解码阶段整网推理时延降低48.7% [18] - 算子优化实现KV缓存搬运效率提升,路由专家权重搬运瓶颈突破 [15][16][18] 推理算法创新 - 专家动态剪枝算法PreMoE保持模型准确率同时提升推理吞吐10%+ [21] - TrimR反思压缩算法通过小模型监测大模型思考过程,推理步数降低14% [22] - SpecReason反思投机算法结合大小模型优势,推理吞吐提升30% [22] 昇腾平台性能表现 - 昇腾800I A2平台4卡部署下,大并发场景单卡吞吐1148 tokens/s,较72B/32B稠密模型提升97%/18%,MTP技术下最高吞吐达1528 tokens/s [24] - 昇腾300I Duo平台4卡部署实现小并发延迟50ms,大并发单卡吞吐201 tokens/s,MTP技术下吞吐最高321 tokens/s,提供高性价比解决方案 [26] - 预填充阶段2卡2路并发实现2k序列输入延迟1.94s,单卡吞吐1055 tokens/s [26]
生于昇腾,快人一步:盘古Pro MoE全链路优化推理系统揭秘
雷峰网· 2025-06-06 17:26
华为软硬协同深度融合优化,强强联合打通推理系统全链路,树立MoE推理标杆。 编辑丨李希 在通往通用人工智能(AGI)的进程中,混合专家(MoE)模型凭借动态稀疏计算优势,成为大模型推理提效的关键路径。华为团队重磅推出昇腾平台原生设 计的Pangu Pro MoE 72B模型,大幅降低计算开销,并在SuperCLUE千亿内模型并列国内第一。通过系统级软硬协同优化、高性能算子融合优化、模型原 生投机算法优化,Pangu Pro MoE推理性能提升6~8倍,在昇腾300I Duo上单卡吞吐可达321 tokens/s,实现极致性价比;在昇腾800I A2上更可飙升至 1528 tokens/s,全面释放硬件潜力,打造极致的推理体验。 技术报告地址:https://gitcode.com/ascend-tribe/ascend-inference-system/tree/main/ 01 推理效率拉满:全链路推理系统优化,释放昇腾澎湃算力 在大模型的分布式推理中,每个计算节点都像一个团队成员,信息流通、协调协作不可避免。就像一场跨部门的大项目,若每一步都开"全员大会",沟通成本 高、效率低,项目推进自然慢半拍。聪明的 ...
首次打榜就登顶,华为盘古如何以小胜大?
虎嗅APP· 2025-05-28 21:34
近十年前,美国硅谷的互联网巨擎在理论和工程等方面,突破了MoE模型的原始架构,让这 个原本被置于学术高阁的理念,化身成为了随后AI竞争的导火索。 如今,后发优势再一次来到了大洋此岸,以华为为代表的中国科技企业,纷纷提出对MoE架 构的优化重组方案。尤其是华为的MoGE架构,不仅克服了MoE负载不均衡及效率瓶颈的弊 病,还能够降本增效,便于训练和部署。 AI之战远未终结,但正如在其他领域中「多快好省」的中国产业底色一样,大模型这棵生于 西方长于彼岸的科技树,也同样会被东方智慧经手后,进化为更加普适和亲切的工具。 近期,虎嗅将打造《华为技术披露集》系列内容,通过一连串的技术报告,首次全面披露相 关的技术细节。 希望本系列内容能为业界起到参考价值,也希望更多人能与华为一起,共同打造长期持续的 开放协作生态环境,让昇腾生态在中国茁壮成长。 《华为技术披露集》系列 VOL.6 :MoGE架构 HUAWEI X HUXIU 三分之一个世纪前,加拿大学者们提出了经典的MoE模型神经网络结构,在人类探索AI的 「石器时代」中,为后世留下了变革的火种。 近日,华为盘古团队提出了分组混合专家模型(Mixture of Group ...