Workflow
Maia 200
icon
搜索文档
微软放慢AI芯片开发节奏:放弃激进路线,专注务实设计
硬AI· 2025-07-03 22:09
微软AI芯片战略调整 - 微软正在调整内部AI服务器芯片路线图,转向更务实和迭代的设计路线,目标是在2028年前发布不那么激进的设计以克服开发延迟问题 [1][2] - 原定2025年发布的Maia 200芯片推迟至2026年,新推出的Maia 280芯片预计在每瓦性能上比英伟达2027年芯片有20%-30%优势 [2][5] - 公司承认每年从零设计全新高性能芯片不可行,通过降低设计复杂性和延长开发周期来减少对英伟达数十亿美元芯片采购的依赖 [2] 开发延迟与产品路线图变更 - 第二代AI芯片Braga设计完成延迟6个月,导致2026-2027年芯片竞争力存疑,公司计划2027年推出中间过渡芯片Maia 280(基于Braga设计,由至少两个Braga芯片连接组成) [4][5] - 原Braga-R芯片更名为Maia 400,计划2028年量产,采用先进连接技术实现裸片层面整合 [6] - 第三代AI芯片Clea发布推迟至2028年后,前景不明 [7] 对合作伙伴的影响 - 芯片设计公司Marvell因微软项目延迟受到负面影响,其股价周三收跌2.61% [9] - 与AI芯片不同,微软CPU项目进展顺利:2024年发布的Cobalt服务器CPU已用于Teams等内部服务并向Azure客户开放,下一代Kingsgate CPU设计已于2024年3月完成 [9][10] 市场反应 - 微软股价在战略调整消息公布后周三收跌0.2% [1][2]
微软放慢AI芯片开发节奏:放弃激进路线,专注务实设计
华尔街见闻· 2025-07-03 04:15
面对内部AI芯片开发的延迟挑战,微软正在调整其雄心勃勃的战略,转向更为务实和迭代的设计路线,以确保在未来几年 内仍能与市场领导者英伟达保持竞争力。 7月2日,据媒体报道,微软正在调整其内部开发的人工智能服务器芯片路线图,将专注于在2028年前发布不那么激进的设 计,以期克服导致开发延迟的问题。原定于2025年发布的Maia 200芯片已被推迟至2026年。 报道援引微软一位发言人表态,其未直接评论Maia芯片的开发细节,但表示公司"仍然致力于"根据客户和自身计算需求开 发内部硬件,同时继续与"紧密的芯片合作伙伴"合作。微软高管相信,新的Maia 280芯片仍能在每瓦性能方面比英伟达2027 年发布的芯片提供20%到30%的性能优势。 报道指出此次战略调整的核心,是微软承认了每年从零开始设计一款全新高性能芯片的路径并不可行。通过降低部分设计 的复杂性并延长其他芯片的开发周期,微软希望更平稳地推进项目,最终目标是减少对英伟达每年数十亿美元芯片采购的 依赖。截至周三美股收盘,微软股价收跌0.2%。 开发延迟迫使战略调整 微软的挫折源于其第二代和第三代AI芯片的开发挑战。 报道指出,该公司于2024年推出了首款AI芯 ...
微软专家会议纪要-Azure 意外增长的真正驱动力,英伟达 GPU 订单情况
2025-05-21 14:36
纪要涉及的公司 微软、英伟达、AMD、Marvell、博通、OpenAI、TikTok、Anthem Blue Cross Blue Shield、ExxonMobil、Netrix、Crayon、Sherweb、Pax8、BlueVoyant、Red Canary、Netflix、Airbnb、AWS、GCP、CoreWeave、Lambda Labs、Crusoe Cloud、Nebius、Meta、Oracle、Anthropic、AWS TPU、Inferentia、Trainium、MTIA、Athena 纪要提到的核心观点和论据 数据中心策略调整 - 微软退出马来西亚、雅加达的数据中心交易,退出欧洲部分项目,减少12%(2千兆瓦)的容量,闲置亚特兰大三个设施并退出Stargate项目,但中东、奥斯汀、圣安东尼奥、北加州和太平洋西北地区数据中心需求强劲[1] - 2026年资本支出预计减少,因英伟达Rubin项目延迟,新设施支出占比从45 - 50%降至38 - 40%,2025年预计支出880亿美元,2026年预计支出780 - 820亿美元[18] Azure业务表现及增长驱动 - Azure业绩超预期,非AI业务是主要驱动,安全套件、Microsoft Fabric和Azure Synapse表现良好,吸引不需要高端工作负载性能的客户,在通用计算和大数据分析领域实现增长,还提供GPU即服务租赁,主要客户有TikTok、OpenAI、Anthem Blue Cross Blue Shield和ExxonMobil等[2] - AI业务也在发展,今年预计营收730亿美元,纯AI业务如直接GPU即服务或Azure AI Studio(现更名为AI Foundry)约120亿美元,安全套件、CRM和ERP的AI增强贡献约80亿美元,与DeepSeek建立桌面合作[3] 非AI业务增长动力及可持续性 - 数据处理、ETL和嵌入等任务需求持续,关税和供应链动荡促使企业进行成本优化,推动通用计算需求增长,通用计算基线增长率通常为每年5 - 6%,近期两位数增长不可持续,但个位数增长可维持[4] 非AI销售团队重组 - 微软近期裁员约6000人,完成明年非AI业务重组,引入更多MSP和MSSP公司,将非AI工作外包给他们[5] AI业务收入构成 - GPU即服务方面,OpenAI是最大客户,产生约47 - 52亿美元,TikTok约33亿美元,其他客户约2亿美元;Azure AI Foundry约7亿美元;Microsoft Dynamics的AI对ERP和CRM贡献约20亿美元;Office Copilot订阅每年约30亿美元;安全套件AI贡献约10亿美元[6] 竞争地位 - AWS是云服务领域王者,有Netflix和Airbnb等大客户;GCP是低成本云服务提供商,吸引注重成本效益的客户;Azure更贵,注重高质量客户服务,主要针对大型企业客户,通过附属产品吸引小公司,最终目标是将其迁移到云平台,但与AWS直接竞争困难,Google员工更注重技术创新,客户服务可靠性和可用性存在问题[7] AI芯片禁令影响 - 目前禁令主要适用于政府机构,私营部门可自由选择使用模型,全面禁止训练中国模型对美国私营实体实施难度大,因会使微软等公司损失TikTok等客户的收入[8] GPU供应情况 - 此前Hopper GPU短缺问题已解决,目前Blackwell GPU无短缺,早期问题源于CDU热性能、组装公差和Amphenol Paladin连接器问题[9] - GB200早期机架存在良率和质量问题,非供应短缺,主要是冷板对齐公差、热挑战和连接器组装问题,导致早期良率低,影响客户需求满足[10] 数据中心改造 - GB200需要液体冷却,需抬高地板和双层堆叠,还有新的Mount Diablo电源柜,需对数据中心进行重新设计,部分新设施已开放,改造工作正在进行,老GPU设施将逐步改造[12][13] GPU部署及性能 - 微软已订购约17.5万GB200和35万DGX B200,已收到15万GB200和15万DGX,下半年预计再订购30万GB300和20万GB200,目前约1000个机架可供客户使用,剩余1000个预计6月底可用[14][15] - GB200性能良好,单卡可达4000 TOPS,GPT - 4推理时,单GPU每秒可处理约3400个令牌,优化后可达约6000个令牌每秒[16] GPU采购计划 - 2025年英伟达GPU预计需求约125万单位,包括Blackwell和Hopper(仅H200),2026年主要购买GB300和Vera Rubins,预计约115万单位[24][25] - 2025年AMD方面,接收12.5万MI325,放弃2.5万订单,以信用额度用于购买MI355,已承诺购买20万MI355,2026年预计购买22 - 23万MI400和15万MI355[26][30] GPU利用率 - Blackwell利用率超97%,目前80%用于训练,20%用于推理,目标是到9月中旬或10月达到50%训练;Hopper目前训练利用率约30%,将降至25%,H200训练利用率90%,推理利用率93%,H100约15 - 20%用于训练,80%用于推理,训练利用率80%,推理利用率90%,利用率高是因CoreWeave容量减少,长期目标是降至88 - 92%[20][22] 市场份额 - 2026年微软采购量中,Maia占3%,其他占1%,AMD占17%,其余为英伟达;整体市场英伟达预计占92%,AMD约8%,第三方硅占11 - 12%[31] ASIC设计供应商变更 - 微软可能从Marvell转向Broadcom进行ASIC设计,因Marvell在内存控制器、以太网交换机、以太网控制器和PCIe等方面表现不佳,Maia 300将在2027 - 2028年转向Broadcom[32][33] 其他重要但是可能被忽略的内容 - 2025年微软购买20万H200且已全部交付,因与其他GPU卡形式、电源要求和NVLink NV Switch相同,升级简单[23] - AMD MI325价格为1.45万美元,MI355为1.82万美元,微软作为AMD最大客户可获特殊折扣,AMD主要客户为微软、Meta和Oracle[27] - Maia 200 2026年数量不变,Maia 300 2027年预计为30万单位[34]
他们,能威胁英伟达吗?
半导体行业观察· 2025-03-10 09:20
行业趋势 - Nvidia在AI训练和推理领域占据主导地位,但超大规模计算公司和云构建商正在开发自研XPU以降低对Nvidia的依赖 [1] - 超大规模计算公司和云构建商正在开发基于Arm的CPU和矢量/张量数学引擎,用于处理AI工作负载 [1] - Broadcom和Marvell通过提供设计支持和IP模块(如SerDes、PCI-Express、内存控制器)参与定制芯片开发 [1] 公司合作与市场动态 - Marvell与AWS、Google、Meta和Microsoft合作开发定制AI加速器(如Inferentia 2、Trainium 2、Axion Arm CPU等) [2] - Broadcom与Google、Meta、ByteDance合作开发AI加速器(如TPU、MTIA),并传闻与Apple和OpenAI合作 [2] - 超大规模客户要求定制XPU的成本必须显著低于传统CPU/GPU方案 [3] 财务表现 - Broadcom 2025财年Q1销售额1492亿美元(同比+247%),利润55亿美元(同比+42倍) [5] - Broadcom半导体解决方案部门营收821亿美元(环比+111%),AI相关营收412亿美元(同比+77%) [8][11] - Marvell 2025财年Q4销售额182亿美元(同比+199%),净收入2亿美元(去年同期亏损393亿美元) [16] 技术进展 - Broadcom正在流片基于2纳米工艺和35D封装的AI XPU,性能达10,000万亿次浮点运算/秒 [13] - Broadcom推出"Tomahawk 6"以太网交换机ASIC,带宽超100 Tb/秒 [13] - Marvell数据中心业务营收137亿美元(同比+785%),AI相关营收852亿美元(同比+39倍) [18][19] 未来展望 - Broadcom预计2025财年Q2 AI营收44亿美元(同比+44%) [12] - Marvell预计2026财年AI营收超30亿美元,可能达35亿美元 [18][20] - 行业需求呈现周期性特点,超大规模客户倾向于批量采购以优化成本 [4]