Workflow
华为云再掀算力风暴:CloudMatrix384超节点将升级,Tokens服务性能最大可超H20四倍
量子位·2025-09-19 12:11

华为云算力黑土地理念与战略 - 华为云提出"算力黑土地"理念,旨在为企业和开发者提供肥沃的AI创新基础,通过框架创新和软硬协同等能力积累使这片"土壤"越来越肥沃 [7] - 公司策略是智算与通算协同推进,以覆盖全产业算力需求 [8][9] - 智算聚焦AI前沿,提供极致性能与弹性服务;通算依托鲲鹏云服务,提供安全可信的云上通用算力 [12] CloudMatrix超节点技术突破与演进 - CloudMatrix384超节点在2025年4月发布并商用,并于同年6月基于其的新一代昇腾AI云服务全面上线 [6] - 基于最新AI服务器规划,CloudMatrix超节点规格将从384卡升级到未来的8192卡,依托MatrixLink高速对等互联网络实现百万卡AI集群 [5][19] - 超节点通过自研MatrixLink网络将384颗昇腾NPU和192颗鲲鹏CPU紧密耦合,形成逻辑统一的超级"AI服务器",通过Scale Out方式可组成超16万卡的AI集群 [18] Tokens服务模式创新与优势 - 华为云推出基于CloudMatrix384超节点的Tokens服务,这是一种面向AI大模型推理场景、按实际Token消耗量计费的云服务模式 [14] - 数据显示,中国日均Token消耗量从2024年初的1000亿增长至2025年6月底的30万亿,一年半时间增长300多倍 [15] - Tokens服务能有效屏蔽复杂的底层技术实现,用户可直接获得"AI的最终结果",其性能宣称超越英伟达H20达3-4倍 [17] 关键技术创新细节 - 首创EMS弹性内存存储服务,将NPU显存、CPU内存和存储资源解耦,形成统一资源池,实现显存独立扩容,多轮对话Token时延大幅降低 [5][19] - 实现PDC分离及动态PD,将Prefill、Decode固化在各自集群,并设立独立的KV缓存集群,提高负载均衡和NPU利用率 [20] - 超节点专为主流MoE架构设计,支持"一卡一专家"的分布式推理模式,如256个专家对应256张卡,减少通信延迟和显存占用 [20] 行业应用案例与性能提升 - 为360纳米AI平台提供算力支持,该平台单任务执行步骤可达1000步,消耗500万至3000万Tokens,华为云将其调用量最大的模型部署在CloudMatrix384上进行全面调优 [21][22] - 为中国科学院自动化研究所的"磐石·科学基础大模型"提供基于国产化昇腾芯片的昇腾AI云服务,实现全链路自主可控 [23][25] - 在北京正负电子对撞机的粒子轨迹重建任务中,基于磐石大模型和华为云服务,模拟速度提升1个量级,物理分析周期缩短1个量级 [25] 鲲鹏通算业务进展 - 鲲鹏云业务基于自研鲲鹏处理器,提供面向通用计算场景的云服务 [11] - 云上鲲鹏核数从900多万核增长到1500万核,增幅达到67%,已适配超过25000个应用,为ARM生态繁荣提供支撑 [11] 全球算力竞争背景 - AI行业普遍存在算力焦虑,硅谷大厂如OpenAI、马斯克旗下公司、Meta、AWS等均在积极获取更多算力资源 [3] - 算力发展需要单点技术突破以及芯片、硬件、架构、软件、网络、能源乃至整个产业生态的协同演进 [3]