微软甩出3nm自研AI芯片!算力超10PFLOPS,干翻AWS谷歌

微软推出自研AI推理芯片Maia 200 - 微软宣布推出自研AI推理芯片Maia 200,旨在显著提升AI token生成的经济效益,并称其为目前所有超大规模数据中心中性能最高的自研芯片[5] - 该芯片采用台积电3nm工艺制造,拥有超过1400亿颗晶体管,配备原生FP8/FP4张量核心[5] - 其重新设计的内存子系统包含216GB HBM3e(读写速度高达7TB/s)和272MB片上SRAM[5] - 每块芯片在FP4精度下可提供超过10PFLOPS的性能,在FP8精度下可提供超过5PFLOPS的性能,SoC TDP控制在750W[5] 性能规格与竞争优势 - 在FP4性能上,Maia 200是亚马逊自研AI芯片AWS Trainium3的3倍多[6] - 在FP8性能上,Maia 200超过了谷歌TPU v7[6] - 具体峰值规格对比:FP4 TFLOPS为10,145,FP8 TFLOPS为5,072,BF16 TFLOPS为1,268[7] - 内存带宽(HBM BW)为7TB/s,容量为216GB[7] - 提供2.8TB/s双向专用扩展带宽,高于AWS Trainium3的2.56TB/s和谷歌TPU v7的1.2TB/s[7][9] - 是微软迄今为止部署的最高效推理系统,每美元性能比微软目前部署的最新一代硬件提升了30%[10] 设计与应用定位 - 芯片专为使用低精度计算的最新模型而设计,重新设计的内存子系统以提高token吞吐量为核心[5][8] - 可轻松运行当今最大的模型,并为未来更大的模型预留了充足的性能空间[12] - 将支持多种模型,包括OpenAI最新的GPT-5.2模型,从而为Microsoft Foundry和Microsoft 365 Copilot带来更高的性价比[12] - 微软超级智能团队将利用Maia 200进行合成数据生成和强化学习,以改进下一代内部模型[14] 系统集成与可扩展性 - Maia 200与微软Azure无缝集成,微软正在预览包含PyTorch集成、Triton编译器等的Maia软件开发工具包(SDK)[13] - 引入基于标准以太网的新型双层可扩展网络设计,定制的传输层和紧密集成的网卡无需依赖专有架构[16] - 每块芯片提供2.8TB/s双向专用扩展带宽,支持在多达6144块芯片的集群上公开可预测的高性能集体操作[17] - 采用Maia AI传输协议,能够以最小的网络跳数实现跨节点、机架和加速器集群的无缝扩展[20] - 这种统一的架构简化了编程,提高了工作负载的灵活性,并减少了闲置容量[21] 部署与效率优势 - Maia 200已部署在微软位于爱荷华州得梅因附近的美国中部数据中心区域,接下来将部署在亚利桑那州凤凰城附近的美国西部3数据中心区域[14] - 从首批芯片到首个数据中心机架部署的时间可缩短至同类AI基础设施项目的一半以上[23] - 这种端到端解决方案直接转化为更高的资源利用率、更快的生产交付速度,以及在云规模下持续提升的每美元和每瓦性能[23] - 微软从设计之初就将Maia 200定位为数据中心内快速、无缝的可用性解决方案,并对系统组件进行了早期验证[27] - 与Azure控制平面的原生集成,可在芯片和机架级别提供安全、遥测、诊断和管理功能[27]

微软甩出3nm自研AI芯片!算力超10PFLOPS,干翻AWS谷歌 - Reportify