微软甩出3nm自研AI芯片,算力超10PFLOPS,干翻AWS谷歌
微软微软(HK:04338) 36氪·2026-01-27 13:29

核心观点 - 微软推出自研AI推理芯片Maia 200,旨在显著提升AI token生成的经济效益,并称其为目前所有超大规模数据中心中性能最高的自研芯片 [1] 芯片设计与工艺 - Maia 200采用台积电3nm工艺制造,拥有超过1400亿颗晶体管 [1] - 配备原生FP8/FP4张量核心,重新设计的内存子系统包含216GB HBM3e(读写速度高达7TB/s)和272MB片上SRAM [1] - 专为使用低精度计算的最新模型而设计,每块芯片在FP4精度下可提供超过10PFLOPS(即10,145 TFLOPS)的性能,在FP8精度下可提供超过5PFLOPS(即5,072 TFLOPS)的性能,所有这些都控制在750W的SoC TDP范围内 [1][2] - 其FP4性能是亚马逊自研AI芯片AWS Trainium3的3倍多,FP8性能超过了谷歌TPU v7 [1][2] 性能对比与优势 - 与AWS Trainium3和谷歌TPU v7相比,Maia 200在FP4、FP8、BF16 TFLOPS及HBM带宽等多项峰值规格上领先或具有竞争力 [2] - Maia 200提供2.8TB/s双向专用扩展带宽,高于AWS Trainium3的2.56TB/s和谷歌TPU v7的1.2TB/s [2][3] - 该芯片是微软迄今为止部署的最高效推理系统,每美元性能比微软目前部署的最新一代硬件提升了30% [3] 应用与支持 - Maia 200可轻松运行当今最大的模型,并为未来更大的模型预留了充足的性能空间,将支持包括OpenAI最新的GPT-5.2模型在内的多种模型 [4] - 作为微软异构AI基础设施的一部分,Maia 200将为Microsoft Foundry和Microsoft 365 Copilot带来更高的性价比 [4] - 微软超级智能团队将利用Maia 200进行合成数据生成和强化学习,以改进下一代内部模型,其独特设计有助于加快高质量、特定领域数据的生成和筛选速度 [6] 系统集成与部署 - Maia 200与微软Azure无缝集成,微软正在预览包含PyTorch集成、Triton编译器、优化内核库等全套功能的Maia软件开发工具包(SDK) [6] - 芯片已部署在微软位于爱荷华州得梅因附近的美国中部数据中心区域,接下来将部署在亚利桑那州凤凰城附近的美国西部3数据中心区域,未来还将部署更多区域 [6] - 在系统层面,Maia 200引入了一种基于标准以太网的新型双层可扩展网络设计,每块芯片提供2.8TB/s双向专用扩展带宽,并支持在多达6144块芯片的集群上公开可预测的高性能集体操作 [7] - 每个托架内,4块Maia芯片通过直接的非交换链路完全连接,实现高带宽的本地通信,机架内和机架间联网均采用相同的Maia AI传输协议,形成统一的架构 [9] 开发效率与成本效益 - 从首批芯片到首个数据中心机架部署的时间可缩短至同类AI基础设施项目的一半以上,实现了快速的部署 [10] - 这种从芯片到软件再到数据中心的端到端解决方案,直接转化为更高的资源利用率、更快的生产交付速度,以及在云规模下持续提升的每美元和每瓦性能 [10] - 微软通过早期协同开发环境,在首块芯片问世之前就将芯片、网络和系统软件作为一个整体进行优化,并对复杂的系统组件进行了早期验证 [12] - 与Azure控制平面的原生集成,可在芯片和机架级别提供安全、遥测、诊断和管理功能,以最大限度地提高生产关键型AI工作负载的可靠性和正常运行时间 [12]

微软甩出3nm自研AI芯片,算力超10PFLOPS,干翻AWS谷歌 - Reportify