亚马逊云科技发布全新AI基础设施与芯片 - 亚马逊云科技在2025 re:Invent全球大会上宣布推出采用英伟达最新GB300 NVL72系统的P6E GB300系列,并正式发布基于自研芯片Trainium3的Trn3 UltraServers服务器 [1][2][3] - 公司持续为最苛刻的AI工作负载提供顶级算力,其全栈严谨性为全球最大企业提供最佳可靠性和性能 [1][3] - 英伟达的大规模GenAI集群Project Ceiba以及OpenAI等大型机构均在积极使用亚马逊云科技的服务 [1][3] - 大型企业客户目前使用拥有数十万颗芯片的EC2 UltraServers集群(GB200系列),并将很快升级至GB300系列 [1][3] 推出Amazon AI Factories解决方案 - 亚马逊云科技推出Amazon AI Factories,允许客户在自己的数据中心内部署专属的亚马逊云科技AI基础设施供其独享 [1][3] - AI Factory被描述为一个“亚马逊云科技私有区域”,客户可利用现有数据中心空间与电力,同时访问亚马逊云科技领先的AI基础设施与服务,包括最新训练集群、Nvidia GPU以及Amazon SageMaker和Amazon Bedrock等服务 [1][3] - 该解决方案为每个客户独立运行,保持物理与逻辑隔离,同时继承亚马逊云科技的安全性与可靠性,并能满足严格的合规与数据主权要求 [1][3] 自研AI芯片Trainium进展与规划 - 亚马逊云科技宣布其自研AI芯片Amazon Trainium 2是目前全球最佳的推理系统之一 [2][4] - Trainium 2在数据中心的部署速度比过去部署任何芯片的速度都快好几倍,是公司迄今部署速度最快的AI芯片,其销售速度几乎与产能齐平 [2][4] - 仅训练芯片业务部分,目前已是规模达数十亿美元的业务,并且仍在快速增长 [2][4] - 新一代芯片Trainium 3的UltraServers服务器现已正式可用 [2][5] - 公司已全力研发Trainium4并进入深度设计阶段,预计相比Trainium3,Trainium4将在FP4计算性能上提升6倍、内存带宽提升4倍、高带宽内存容量提升2倍,以支持全球最大规模模型的训练需求 [2][5]
亚马逊云科技推出自研AI芯片Amazon Trainium