Workflow
Neuron交换机
icon
搜索文档
自研芯片部署超140万片,亚马逊凭啥
半导体行业观察· 2026-03-23 10:10
文章核心观点 - AWS通过其自研的Trainium系列AI芯片及配套的软硬件生态系统,正在挑战英伟达在AI计算市场的主导地位,并已获得Anthropic和OpenAI等头部AI公司的采用,成为其关键云平台和计算能力供应商 [2][3][19][23] AWS与AI公司的合作关系 - AWS自Anthropic成立初期即为其主要云平台,该关系在Anthropic引入微软作为云合作伙伴后依然稳固 [2] - AWS与OpenAI达成合作协议,成为其AI智能体构建工具Frontier的独家云供应商,并向OpenAI提供2吉瓦(2GW)的Trainium计算能力 [2] - 微软可能认为OpenAI与亚马逊的合作协议违反了其自身与OpenAI的协议,该协议赋予微软访问OpenAI所有模型和技术的权利 [2] - Anthropic的Claude系统使用了超过100万个已部署的Trainium2芯片 [3] - 目前,Trainium2芯片的最大部署在Project Rainier中,这是一个拥有50万个芯片、于2025年底上线的AI计算集群,由Anthropic使用 [18] Trainium芯片的性能与优势 - AWS已在三代Trainium产品中部署了140万个芯片 [3] - Trainium芯片最初为训练设计,现已调整用于推理,而推理是当前AI行业最大的性能瓶颈 [3] - Trainium2处理了亚马逊Bedrock服务的大部分推理流量 [3] - 运行在新型Trn3 UltraServer上的新芯片,在性能相当的情况下,运行成本比使用传统云服务器低50% [5] - Trainium3结合新的Neuron交换机,通过网状网络降低芯片间通信延迟,在“性价比”方面打破各种记录 [6] - 亚马逊的芯片团队在2024年获得了苹果公司的公开赞扬,苹果认可了其Graviton CPU、Inferentia推理芯片以及当时新推出的Trainium芯片 [6] 亚马逊的芯片战略与生态系统 - 亚马逊的芯片策略是了解市场需求,然后打造具有价格竞争力的自有替代品 [6] - AWS芯片团队通过使Trainium支持PyTorch等流行框架,并声称转换“基本上只需要修改一行代码”,以降低开发者的转换成本,削弱英伟达的市场主导地位 [7] - AWS本月宣布与Cerebras Systems合作,将其推理芯片集成到运行Trainium的服务器上,以提供超强、低延迟的AI性能 [7] - 亚马逊的雄心不止于芯片,还包括设计承载芯片的服务器(如Trn3 UltraServer)、网络组件(Neuron交换机)、虚拟化解决方案(Nitro)以及液冷技术,以控制成本和提升性能 [7][21] - 亚马逊的定制芯片设计部门成立于2015年1月,通过收购以色列芯片设计公司Annapurna Labs建立,拥有十余年设计经验 [8] 芯片研发与生产细节 - Trainium3是一款采用3纳米工艺制造的尖端芯片,由台积电(TSMC)生产 [11] - 芯片“启动”过程是首次激活芯片以验证其设计,过程充满挑战,例如Trainium3原型曾因散热器连接问题需要现场打磨解决 [11] - 团队拥有配备焊接工作站和各类测试工具的硬件实验室,用于芯片的调试与分析 [12][14] - 团队设计了“Sled”(托盘)来放置Trainium、Graviton等芯片及配套组件,这些托盘与定制网络组件堆叠构成核心系统,例如支撑Anthropic Claude的系统 [15][17] - 团队拥有私有的数据中心用于质量控制和测试,配备最新的Trn3 UltraServer,其液冷系统采用封闭循环以重复利用冷却液 [18][21] 市场影响与内部重视 - 亚马逊首席执行官安迪·杰西表示,Trainium对AWS来说已经是一项价值数十亿美元的业务,并称其为他最兴奋的AWS技术之一 [23] - 在每次试生产活动前后,工程师们将全天候工作三到四周以解决问题,确保芯片能大规模投产 [23] - Bedrock服务客户群正迅速扩张,有朝一日可能会像AWS的EC2计算云服务一样庞大 [3]