SemiAnalysis 全文:解构微软的AI战略——从错失OpenAI合约到重构AI算力经济体系|Jinqiu Select
微软微软(US:MSFT) 锦秋集·2025-11-13 18:33

微软AI战略核心观点 - AI算力经济的核心在于资本效率,而非单纯规模,即用更少的GPU资本创造更多token产出、更高复用率和更优现金流[2] - 微软的AI基础设施战略经历剧烈转弯:从2023-2024年的激进建设,到2024年Q2后的大幅暂停,如今再度加速回归市场[2][4][30] - 微软正试图成为垂直整合的AI巨头,消除大部分第三方毛利率,以比同行更低的成本提供更多智能[7] 微软AI数据中心建设规模 - 2023年Q1至2024年Q2,微软数据中心预租赁活动规模远超其他超大规模运营商总和,高峰期占租赁合约60%以上[10][30] - 微软规划并同时建造地球上最大的两个数据中心,Fairwater项目每座建筑功率约300兆瓦,相当于超过20万户美国家庭用电量,容纳超过15万个GB200 GPU[11][19] - 威斯康星州园区全面建成后将成为全球最大园区之一,拥有超过2GW的IT容量,并计划通过超300Tb/s的AI广域网连接主要AI区域[27][28] 微软战略暂停与调整 - 2024年Q2后微软暂停超过3.5GW容量建设,退出多个地点的多吉瓦非约束性意向书,在超大规模预租赁总容量中占比降至25%以下[30][32][42] - 暂停原因包括执行力缓慢、对市场存在误解,无法满足OpenAI尽快扩大规模的要求,导致OpenAI转向甲骨文等合作伙伴[49][52] - 微软低估了来自Meta等参与者的XPU云需求规模,错失了从100万美元到超过5亿美元的各种AI算力合同增长机会[56][66] AI代币经济栈分析 - 领先模型制造商在其直接API业务上利润率超过60%,IaaS层Neocloud毛利率为35%,PaaS层模型毛利率达59%[44] - 使用第三方代币的应用毛利率为12.5%,而使用第一方代币的应用毛利率可达64.1%,凸显垂直整合价值[9][44] - 优化GPU云经济性关键在于最大化其经济寿命,H100集群TCO显示扣除资本成本后每GPU每小时仍有0.30-0.40美元运营成本[78] 微软产品与竞争定位 - Azure在AI初创公司和独角兽企业中的用户体验不佳,需重新设计CycleCloud和AKS产品,简化集群部署和监控体验[63][66] - 微软加大对模型超市生态系统的押注,推出Agent HQ平台,接入包括谷歌和xAI在内的多个实验室智能体[84] - GitHub Copilot从几乎100%使用第一方代币变为从Anthropic购买大量代币,对利润率造成巨大损失[83] 微软芯片战略与硬件布局 - 微软在超大规模企业中芯片开发排名垫底,Maia 100未大规模生产,Maia 200开发陷入停滞,预计2027年底才能部署2纳米Maia 300[94][97][107] - 微软可能使用OpenAI Titan ASIC来运行OpenAI模型,但依赖OpenAI ASIC无法实现硬件自给自足目标[100][109] - 除微软外,所有超大规模云服务提供商都将部署支持实际工作负载的ASIC,谷歌TPUv7与英伟达Blackwell不相上下[105][107] 微软网络架构创新 - 微软部署创新性仅轨道拓扑网络,可在两层网络上连接多达524,288个GPU,大幅提升可扩展性[110][113] - 微软构建300Tb/s长途AI广域网,连接多个区域,并有扩展到10Pb/s的能力,使用光电路交换技术提高灵活性[121][116] - 这种网络设计使微软能够开展跨数据中心的分布式训练任务,利用并感知广域网连接[114]