Workflow
Inferentia芯片
icon
搜索文档
自研芯片部署超140万片,亚马逊凭啥
半导体行业观察· 2026-03-23 10:10
文章核心观点 - AWS通过其自研的Trainium系列AI芯片及配套的软硬件生态系统,正在挑战英伟达在AI计算市场的主导地位,并已获得Anthropic和OpenAI等头部AI公司的采用,成为其关键云平台和计算能力供应商 [2][3][19][23] AWS与AI公司的合作关系 - AWS自Anthropic成立初期即为其主要云平台,该关系在Anthropic引入微软作为云合作伙伴后依然稳固 [2] - AWS与OpenAI达成合作协议,成为其AI智能体构建工具Frontier的独家云供应商,并向OpenAI提供2吉瓦(2GW)的Trainium计算能力 [2] - 微软可能认为OpenAI与亚马逊的合作协议违反了其自身与OpenAI的协议,该协议赋予微软访问OpenAI所有模型和技术的权利 [2] - Anthropic的Claude系统使用了超过100万个已部署的Trainium2芯片 [3] - 目前,Trainium2芯片的最大部署在Project Rainier中,这是一个拥有50万个芯片、于2025年底上线的AI计算集群,由Anthropic使用 [18] Trainium芯片的性能与优势 - AWS已在三代Trainium产品中部署了140万个芯片 [3] - Trainium芯片最初为训练设计,现已调整用于推理,而推理是当前AI行业最大的性能瓶颈 [3] - Trainium2处理了亚马逊Bedrock服务的大部分推理流量 [3] - 运行在新型Trn3 UltraServer上的新芯片,在性能相当的情况下,运行成本比使用传统云服务器低50% [5] - Trainium3结合新的Neuron交换机,通过网状网络降低芯片间通信延迟,在“性价比”方面打破各种记录 [6] - 亚马逊的芯片团队在2024年获得了苹果公司的公开赞扬,苹果认可了其Graviton CPU、Inferentia推理芯片以及当时新推出的Trainium芯片 [6] 亚马逊的芯片战略与生态系统 - 亚马逊的芯片策略是了解市场需求,然后打造具有价格竞争力的自有替代品 [6] - AWS芯片团队通过使Trainium支持PyTorch等流行框架,并声称转换“基本上只需要修改一行代码”,以降低开发者的转换成本,削弱英伟达的市场主导地位 [7] - AWS本月宣布与Cerebras Systems合作,将其推理芯片集成到运行Trainium的服务器上,以提供超强、低延迟的AI性能 [7] - 亚马逊的雄心不止于芯片,还包括设计承载芯片的服务器(如Trn3 UltraServer)、网络组件(Neuron交换机)、虚拟化解决方案(Nitro)以及液冷技术,以控制成本和提升性能 [7][21] - 亚马逊的定制芯片设计部门成立于2015年1月,通过收购以色列芯片设计公司Annapurna Labs建立,拥有十余年设计经验 [8] 芯片研发与生产细节 - Trainium3是一款采用3纳米工艺制造的尖端芯片,由台积电(TSMC)生产 [11] - 芯片“启动”过程是首次激活芯片以验证其设计,过程充满挑战,例如Trainium3原型曾因散热器连接问题需要现场打磨解决 [11] - 团队拥有配备焊接工作站和各类测试工具的硬件实验室,用于芯片的调试与分析 [12][14] - 团队设计了“Sled”(托盘)来放置Trainium、Graviton等芯片及配套组件,这些托盘与定制网络组件堆叠构成核心系统,例如支撑Anthropic Claude的系统 [15][17] - 团队拥有私有的数据中心用于质量控制和测试,配备最新的Trn3 UltraServer,其液冷系统采用封闭循环以重复利用冷却液 [18][21] 市场影响与内部重视 - 亚马逊首席执行官安迪·杰西表示,Trainium对AWS来说已经是一项价值数十亿美元的业务,并称其为他最兴奋的AWS技术之一 [23] - 在每次试生产活动前后,工程师们将全天候工作三到四周以解决问题,确保芯片能大规模投产 [23] - Bedrock服务客户群正迅速扩张,有朝一日可能会像AWS的EC2计算云服务一样庞大 [3]
巨头混战AI下半场:亚马逊、微软、谷歌的三种野心
美股研究社· 2026-03-18 18:45
行业背景与核心观点 - AI行业竞争已从模型参数和演示的比拼,进入资本、能源与供应链综合较量的“重资产竞赛阶段” [1] - 行业风向标发生偏移,拉开差距的关键在于明确自身的盈利层级,而非单纯发布模型 [1] - 亚马逊、微软与谷歌的最新动作,分别指向基础设施、软件重构与物理底层三个不同的战略维度,反映出AI下半场复杂的生存逻辑 [1] 亚马逊的战略路径 - 公司战略核心是押注“算力即商品”,致力于成为AI时代所有模型背后的“水电煤”式基础设施提供商 [2][3][4] - 公司设定明确财务目标:到2036年,亚马逊云科技收入翻倍至6000亿美元 [3] - 公司刻意弱化AI应用叙事,强化基础设施供给能力,旨在成为底层“抽水者”以旱涝保收,规避模型路线不确定的风险 [4][5] - 为支撑野心并控制成本,公司加速部署自研Trainium和Inferentia芯片,推行“软硬一体”策略以提供更具性价比的算力选项 [5] - 该定位意味着公司追求确定性更高的故事,即AI只是让云计算市场变得更大,但可能难以享受应用爆发的超额溢价 [5] 微软的战略路径 - 公司战略核心是以智能副手Copilot为核心,将AI深度嵌入所有生产力工具,重构软件定价模式 [6][7] - 公司试图从“卖软件授权”转向“按使用频率和智能程度收费”,将AI能力转化为持续现金流 [7] - 公司拥有庞大的企业客户基础和深厚渠道网络,有利于AI功能的推广 [7] - 该路径更具侵略性,旨在重分整个软件行业的利润池,被视为AI时代最具“变现能力”的公司之一 [7] - 该战略风险集中,若用户付费意愿不及预期或AI能力未形成显著差异,高估值可能面临压力;同时面临开源模型缩小性能差距的挑战 [8] 谷歌的战略路径 - 公司战略看似“偏离主线”,实则最具前瞻性,将竞争维度从算法算力延伸至能源与散热等物理世界 [9] - 公司关注液冷设备等方向,表明AI竞争正进入“基础设施深水区”,数据中心能耗与热管理已成为瓶颈 [9] - 公司派团队到中国考察液冷供应链,体现了对供应链安全、效率以及中国制造业在精密加工与成本控制方面优势的务实考量 [9] - 公司进行“底层防御型布局”,旨在构建从芯片到冷却的全栈可控体系,确保在算力基础设施关键环节不被卡脖子 [10] - 这一变化意味着AI产业链机会外溢至电力、制冷、数据中心设备等领域,未来的AI巨头必须是能源和硬件工程的大师 [10] 总结:三大巨头的路径分化与行业启示 - 亚马逊选择做“卖水的人”,押注规模与稳定现金流,在不确定性中锁定确定性 [12] - 微软试图成为“入口重构者”,押注软件利润再分配,通过改变人类工作方式实现价值跃迁 [12] - 谷歌则下沉到“基础设施深水区”,押注长期技术主导权,将竞争维度拉升至物理与能源层面 [12] - 三种路径分化揭示AI正重构全球产业结构,成为一个包含算力、软件、能源与硬件的“超级系统” [12] - 产业成熟标志是巨头分化,没有任何一家公司能通吃所有环节,理解不同商业逻辑比追逐模型参数更为关键 [12]
解构亚马逊最强芯片,GPU迎来劲敌
半导体行业观察· 2025-12-04 08:53
AWS Trainium芯片系列发展概述 - AWS自研AI加速芯片Trainium系列持续迭代,最新一代Trainium3已开始批量交付,而Trainium4预计将于2026年底或2027年初推出,性能有望实现显著跃升[1] - Trainium4预计将采用2纳米制程工艺,性能达到Trainium3的6倍,FP8处理能力提升3倍,HBM内存容量翻倍,带宽提升4倍[18] - 行业竞争加剧,Trainium系列作为英伟达Blackwell GPU和谷歌TPU加速器的替代方案,旨在降低AI训练和推理成本,推动GenAI商业化[1] Trainium3技术规格与性能 - Trainium3采用台积电3纳米制程,相比Trainium2的5纳米工艺有所升级,计算能力提升2倍,能效提升40%[4] - Trainium3 UltraServer集群配备64个XPU插槽,整体计算能力较Trn2 UltraServer提升4.4倍,HBM内存带宽提升3.9倍,每兆瓦计算能力产生的token数量增加5倍[6] - NeuronCore-v4架构优化向量引擎的指数函数计算性能,支持MXFP8数据格式量化,SRAM容量提升至每核心32MB,HBM内存容量达144GB,带宽4.9 TB/秒[15] Trainium芯片架构演进 - NeuronCore架构从v1到v5持续升级,v4版本集成标量、向量、张量及集体通信核心,针对GenAI工作负载优化[9] - Trainium2采用NeuronCore-v3架构,支持多种稀疏度模式(如1:4、2:4),FP16/BF16精度下有效吞吐量较Trainium1提升3.5倍[13] - Trainium4预计采用NeuronCore-v5架构,新增原生FP4支持,可能集成NVLink或UALink互连技术,提升跨设备协同效率[18][19] 实例配置与集群扩展 - Trn3 Gen2 UltraServer内存域扩展至144个插槽,核心数量增加2.25倍,集群最大规模可达1,000,512台设备,峰值性能达671.3 exaflops(FP16/BF16)[15][21] - Trainium4 UltraServer集群设计可能支持288个插槽,NeuronCore总数达6,912个,HBM内存容量1,944 TB,较Trn2 Gen2集群性能提升13.5倍[21] - AWS通过Elastic Fabric Adapter升级网络带宽,Trn3实例EFA-v3带宽达28.8 Tb/秒,支撑大规模AI训练与推理任务[15] 市场应用与生态影响 - Trainium2已被Anthropic用于模型开发与推理,AWS Bedrock模型服务大量依赖Trainium芯片,显示其在实际业务中的成熟度[14] - AWS可能通过Trainium4支持NVLink技术,实现定制CPU与XPU的高速互联,增强与英伟达GPU的兼容性,降低用户迁移成本[19] - 芯片制程微缩(从3纳米向2纳米演进)成为提升性能的关键路径,同时需平衡功耗、成本与散热设计[18][20]