EMS弹性内存存储服务
搜索文档
华为云再掀算力风暴:CloudMatrix384超节点将升级,Tokens服务性能最大可超H20四倍
量子位· 2025-09-19 12:11
华为云算力黑土地理念与战略 - 华为云提出"算力黑土地"理念,旨在为企业和开发者提供肥沃的AI创新基础,通过框架创新和软硬协同等能力积累使这片"土壤"越来越肥沃 [7] - 公司策略是智算与通算协同推进,以覆盖全产业算力需求 [8][9] - 智算聚焦AI前沿,提供极致性能与弹性服务;通算依托鲲鹏云服务,提供安全可信的云上通用算力 [12] CloudMatrix超节点技术突破与演进 - CloudMatrix384超节点在2025年4月发布并商用,并于同年6月基于其的新一代昇腾AI云服务全面上线 [6] - 基于最新AI服务器规划,CloudMatrix超节点规格将从384卡升级到未来的8192卡,依托MatrixLink高速对等互联网络实现百万卡AI集群 [5][19] - 超节点通过自研MatrixLink网络将384颗昇腾NPU和192颗鲲鹏CPU紧密耦合,形成逻辑统一的超级"AI服务器",通过Scale Out方式可组成超16万卡的AI集群 [18] Tokens服务模式创新与优势 - 华为云推出基于CloudMatrix384超节点的Tokens服务,这是一种面向AI大模型推理场景、按实际Token消耗量计费的云服务模式 [14] - 数据显示,中国日均Token消耗量从2024年初的1000亿增长至2025年6月底的30万亿,一年半时间增长300多倍 [15] - Tokens服务能有效屏蔽复杂的底层技术实现,用户可直接获得"AI的最终结果",其性能宣称超越英伟达H20达3-4倍 [17] 关键技术创新细节 - 首创EMS弹性内存存储服务,将NPU显存、CPU内存和存储资源解耦,形成统一资源池,实现显存独立扩容,多轮对话Token时延大幅降低 [5][19] - 实现PDC分离及动态PD,将Prefill、Decode固化在各自集群,并设立独立的KV缓存集群,提高负载均衡和NPU利用率 [20] - 超节点专为主流MoE架构设计,支持"一卡一专家"的分布式推理模式,如256个专家对应256张卡,减少通信延迟和显存占用 [20] 行业应用案例与性能提升 - 为360纳米AI平台提供算力支持,该平台单任务执行步骤可达1000步,消耗500万至3000万Tokens,华为云将其调用量最大的模型部署在CloudMatrix384上进行全面调优 [21][22] - 为中国科学院自动化研究所的"磐石·科学基础大模型"提供基于国产化昇腾芯片的昇腾AI云服务,实现全链路自主可控 [23][25] - 在北京正负电子对撞机的粒子轨迹重建任务中,基于磐石大模型和华为云服务,模拟速度提升1个量级,物理分析周期缩短1个量级 [25] 鲲鹏通算业务进展 - 鲲鹏云业务基于自研鲲鹏处理器,提供面向通用计算场景的云服务 [11] - 云上鲲鹏核数从900多万核增长到1500万核,增幅达到67%,已适配超过25000个应用,为ARM生态繁荣提供支撑 [11] 全球算力竞争背景 - AI行业普遍存在算力焦虑,硅谷大厂如OpenAI、马斯克旗下公司、Meta、AWS等均在积极获取更多算力资源 [3] - 算力发展需要单点技术突破以及芯片、硬件、架构、软件、网络、能源乃至整个产业生态的协同演进 [3]
华为宣布 AI 推理技术重大突破 有望彻底摆脱 HBM 依赖
是说芯语· 2025-08-10 10:30
华为AI推理技术突破 - 公司将于8月12日发布AI推理领域突破性技术成果 通过创新架构设计与存储技术融合降低对HBM依赖 提升国产AI大模型推理性能 [1] - 新技术涉及"硬件重构+软件智能"深度协同 可能通过超节点级联构建"超级AI服务器" 结合纳秒级通信网络和智能调度系统实现全维度优化 [4] - 华为云CloudMatrix384昇腾AI云服务已验证类似技术路径 单卡Decode吞吐突破1920 Tokens/s KV Cache传输带宽提升10倍 输出每个Token时延降至50ms [4] 行业现状与痛点 - 全球AI推理需求爆发式增长 高端AI服务器对HBM依赖度高达90%以上 但全球HBM产能被SK海力士、三星等垄断 国产替代率不足5% [3] - HBM垄断推高大模型训练和推理成本 阻碍中国在金融、医疗、工业等关键领域AI落地进程 [3] - 当前主流HBM3带宽超819GB/s 短期内难以被完全替代 [5] 技术细节与积累 - EMS弹性内存存储服务实现显存扩展、算力卸载、以存代算三大功能 使盘古大模型5.0的NPU部署数量降低50% 推理首Token时延降低80% [4] - 结合昇腾与鲲鹏算力深度协同 在MoE训练中实现吞吐提升20%、内存节省70% [4] - 分布式新核心方案5.5支撑超75%的大行和股份制银行核心转型 [5] 金融行业应用前景 - 金融行业将成为技术落地首站 已形成成熟AI布局体系 [5] - 智能体技术推动风控、审计等场景从单点智能向多体智能跃迁 与科大讯飞合作实现MoE模型推理吞吐提升3.2倍 端到端时延降低50% [5] - 新技术可支持高频交易毫秒级决策 支撑智能客服千万级用户实时交互 [5] - 与中国电信合作的AI智能体项目使故障处理时长缩短30% 无线网络优化任务大模型让用户体验提升10%-15% [5] 行业影响 - 技术突破可能重塑全球AI芯片竞争格局 推动从"硬件堆砌"转向"架构创新" [3][5] - 若找到性能与成本平衡点 可能打破"唯HBM论"产业惯性 [5]