AWS Trainium3
搜索文档
32张图片图解SemiAnalysis的亚马逊AI芯片Trainium3的深度解读
傅里叶的猫· 2025-12-07 21:13
AWS Trainium3核心理念与战略 - 核心理念是最大化性价比与运营灵活性,追求最佳总拥有成本,而非固定硬件标准 [3][4][8][9] - 采用“Amazon Basics”方法设计系统与网络,根据特定客户和数据中心需求选择交换机带宽和冷却方式,以实现最佳TCO [4][9] - 软件战略从内部优化转向开源生态,旨在构建类似CUDA的护城河,通过开源PyTorch后端、NKI编译器、XLA图编译器及内核库来扩大采用率 [5][6][10] 市场竞争格局与AWS定位 - 人工智能加速器市场竞争激烈,NVIDIA是当前领导者,但面临AWS、AMD、Google等多条战线挑战 [7][10] - AWS Trainium3凭借极强的性价比成为新的竞争者,其上市策略包括对OpenAI等客户提供股权回扣以加速采用 [7][10] - 行业需加速发展以保持领先,避免自满 [7][10] Trainium3硬件规格与代际升级 - 相比Trainium2,Trainium3在关键规格上实现显著提升:BF16/FP8 FLOPs提升2倍,支持MXFP8数据格式,HBM3E容量从96GB增至144GB(+50%),引脚速度从5.7Gbps提升至9.6Gbps(+70%),纵向扩展带宽从PCIe Gen5升级至Gen6实现2倍提升 [12] - 存在4种服务器SKU,品牌命名与供应链代号不一致易导致混淆,文章呼吁AWS采用更清晰的命名法 [12] - 预计下一代Trainium4将采用HBM4,内存带宽和容量相比Trainium3再次翻倍 [12] 机架架构演进与设计 - 架构从Trainium2的2D/3D Torus拓扑演进至Trainium3的交换式纵向扩展架构,后者为前沿MoE模型提供更好的绝对性能和性价比 [4][9][14][26] - Trainium3提供两种主要交换式机架SKU:风冷的NL32x2(代号Teton3 PDS)和液冷的NL72x2(代号Teton3 MAX),分别针对不同功率密度和规模需求 [7][10][26][30] - 设计注重可维护性与可靠性,采用无电缆设计、支持热插拔,不同于NVIDIA追求极致性能而有所牺牲的理念 [28][29][44] 硅工艺与封装技术 - Trainium3采用台积电N3P工艺节点,这是专为高性能计算优化的3nm工艺,相比N5在速度、功耗和密度上带来增量收益 [15] - 封装采用双CoWoS-R组件结构,使用有机薄膜中介层,相比硅中介层成本更低、机械柔性更好,并通过集成无源器件弥补细微布线和电源完整性不足 [16][17][18] - N3P工艺面临漏电与良率挑战,可能导致产品时间表推迟 [15] 供应链与设计合作伙伴策略 - Trainium3的设计从Marvell转向Alchip,后者负责绝大多数产量,主要原因是Marvell在Trainium2上执行不力、开发周期过长 [20] - AWS采用双流片策略,极度关注成本,压缩了合作伙伴的利润空间 [20] - 与Astera Labs建立合作伙伴关系,通过批量采购和股权认股权证获得约23%的有效折扣 [41] 网络架构与扩展能力 - 纵向扩展网络从第一代160通道PCIe交换机演进,未来将采用320通道PCIe及72+端口的UALink交换机,以降低延迟、优化MoE性能 [4][9][37][41] - 横向扩展网络基于弹性织物适配器架构,提供高安全性、可扩展性和低延迟,默认配置为每芯片200Gbps EFA带宽,并可升级至400Gbps [29][35][45] - 采用高基数网络策略,通过定制交换机(12.8T/25.6T/51.2T)和逻辑端口配置,最大化GPU连接规模,实现大规模网络 [46][47] 性能优化与创新特性 - 配备专用集体通信核心,实现计算与通信任务的无竞争并发处理,简化高性能实现 [49][50] - 具备低延迟集体通信特性,如近内存计算、SBUF直接传输、自动转发和零成本转置,优化LLM训练和MoE模型性能 [51][52] - 支持高级流量管理与动态MoE,通过硬件流量整形和原生动态路由支持,无需预先数据洗牌 [53][54] 商业化与部署策略 - 通过无电缆设计、使用Retimer、背板冗余通道等设计哲学,以及风冷/液冷双选项,提高组装效率、部署灵活性和可维护性 [44] - 供应链优化旨在缩短从CoWoS封装到完整机架的交付时间,目标在季度内完成,以实现比竞争对手更快的客户收入生成 [44] - 交换式拓扑相比Torus更受青睐,AWS策略是兼容多代交换机,追求TCO与上市时间的平衡 [26][35]
TrendForce集邦咨询:Rubin平台无缆化架构与ASIC高HDI层架构 驱动PCB产业成为算力核心
智通财经· 2025-11-20 17:12
AI服务器PCB产业的结构性转变 - AI服务器设计发生结构性转变,PCB从电路载体转变为算力释放的核心层,行业进入高频、高功耗、高密度的“三高时代” [1] - 2026年被视为PCB产业以“技术含量驱动价值”的新起点 [1] 无缆化设计带来的技术升级与价值提升 - 英伟达Rubin平台采用无缆化互连设计,GPU与Switch间的高速传输由Switch tray、Midplane与CX9/CPX等多层PCB板直接承接,信号完整性与传输稳定性成为核心指标 [1] - Rubin平台为达成低损耗与低延迟,全面升级材料,Switch Tray采用M8U等级材料和24层HDI板,Midplane与CX9/CPX导入M9材料,层数最高达104层 [2] - 单台服务器的PCB价值比上一代提升逾两倍,设计重点从板面布线转向整机互连与散热协同 [2] 产业技术趋势的扩散与上游材料质变 - Rubin的设计逻辑成为产业共同语言,Google TPU V7、AWS Trainium3等ASIC AI服务器同样导入高层HDI、低Dk材料与极低粗糙度铜箔 [2] - AI服务器对PCB性能的需求带动上游材料质变,以介电与热稳定为核心指标的玻纤布与铜箔成为影响整机效能的关键 [2] 上游材料供应格局与投资动态 - 日本Nittobo斥资150亿日圆扩产T-glass,预计2026年底量产,产能较现况提升三倍,T-glass是ABF与BT载板核心材料,价格约为E-glass的数倍 [2] - 低粗糙度HVLP4铜箔成为主流,但每提升一级产能即减少约半,供应呈现长期紧张,议价权逐步由下游整机回流至上游材料端 [3]
英伟达Rubin CPX 的产业链逻辑
傅里叶的猫· 2025-09-11 23:50
文章核心观点 - 英伟达推出Rubin CPX专用预填充加速器 解决AI推理中预填充和解码阶段硬件需求矛盾 通过专用硬件设计显著降低成本并提升效率[1][2][3] - 第三代Oberon架构机架采用无电缆设计和全液冷方案 实现更高计算密度和散热能力[8][9][10] - 行业竞争格局可能被重塑 竞争对手面临更大压力 GDDR7需求可能爆发[13][15][16] AI推理硬件需求矛盾 - AI大模型推理存在预填充(prefill)和解码(decode)阶段硬件需求矛盾:预填充阶段需要高计算能力但内存带宽需求低 解码阶段需要高内存带宽但计算需求低[2][3] - 通用GPU方案导致资源浪费:预填充阶段HBM内存带宽利用率仅0.7% 解码阶段计算能力过剩[3][7] - 专用硬件解决方案可提升效率:预填充阶段每小时浪费TCO从R200的0.9美元降至CPX的0.16美元[6][7] Rubin CPX配置特点 - 采用GDDR7替代HBM:内存带宽从R200的20.5TB/s降至2TB/s 但成本降低80%[4][6] - 封装和连接简化:从CoWoS封装改为FC-BGA SerDes速率从224G降至64G(PCIe Gen6)[4][5] - 成本效益显著提升:BOM成本仅为R200的25% 但提供60%计算能力[6] - 内存利用率优化:带宽利用率从0.7%提升至4.2% 容量浪费从286GB降至123GB[7] Oberon机架架构升级 - 无电缆设计:采用Amphenol板对板连接器和PCB中板 消除飞线故障点[9] - 计算密度提升:单个计算托盘容纳4个R200 GPU+8个Rubin CPX+2个Vera CPU 整机架达396个计算和网络芯片[9] - 全液冷散热方案:功率预算达370kW 采用三明治设计共享液冷冷板 支持7040W托盘功率[10] - 灵活扩展能力:支持单独添加VR CPX机架通过InfiniBand/以太网连接 可调整预填充与解码比例[12] 行业竞争影响 - AMD面临压力:MI400机架19.8TB/s带宽被R200的20.5TB/s超越 需重新规划产品路线[13] - 云计算厂商受冲击:谷歌TPU需开发专用预填充芯片 AWS Trainium3机架需额外设计EFA侧机架[13] - 定制ASIC公司处境困难:在硬件专用化趋势下可能被成本压制[13] - GDDR7需求增长:三星因产能充足获得大订单 SK海力士和美光因专注HBM产能受限[15][16] 产业链变化 - PCB价值量提升:每GPU的PCB价值从GB200的400美元升至VR200的900美元[21] - 中层板需求增加:每个NVL144需18个中层板 采用44层PTH PCB[20] - 液冷系统需求扩张:每颗CPX芯片需配冷板 同时拉动转接头、CDU和管路需求[22] 未来发展方向 - 可能推出解码专用芯片:减少计算能力 增加内存带宽 进一步优化能效[14] - 硬件专用化趋势加速:预填充和解码阶段可能分别采用不同专用芯片[14]
摩根士丹利:AI ASIC-协调 Trainium2 芯片的出货量
摩根· 2025-07-11 09:13
报告行业投资评级 - 行业评级为In-Line [8] 报告的核心观点 - 因投资者对AWS Trainium2/2.5芯片出货量假设存疑,进行后续研究,供应链检查显示Trainium2/2.5生命周期(2H24 - 1H26)预计出货190万单位 [2][11] - 归因AWS Trainium2/2.5芯片在半导体和系统间出货量不匹配问题,是PCB良率不稳定所致,预计2025年芯片出货量达110万单位 [1][8] - 随着Trainium2基板和机架组装良率提升,出货量差距可能在2025年下半年缩小 [6] 各部分总结 芯片出货量情况 - Trainium2/2.5生命周期(2H24 - 1H26)预计出货190万单位,2024年末已生产30万单位Trainium2芯片,2025年CoWoS - R总产能预订意味着Trainium2/2.5出货约110万单位,其中约70%由台积电封装,30%由日月光封装,预计2026年上半年再生产50万单位Trainium2.5芯片 [3][11] - 2026年Trainium2预计降至50万单位,Trainium3预计生产60 - 65万芯片,Trainium4预计2027年末小批量生产,2028年快速增长 [11][13][14] 不同环节视角 - 上游芯片产出方面,看到110万单位,与下游数据有差异 [11] - 中游PCB方面,下游分析师检查显示下游组件出货可能意味着超过180万单位Trainium芯片,自4月以来约每月20万单位,金居提供Trainium计算托盘的PCB板,King Slide提供导轨套件 [4] - 下游服务器机架系统方面,纬颖是服务器机架组装关键供应商,其AWS Trainium2服务器收入在2025年第一季度开始增长,基于每机架32颗芯片的服务器机架单位,芯片消耗量与上游的110万单位一致 [5] 其他组件供应商 - 热解决方案主要由AVC(>80%)供应,电源/BBU由光宝科技提供,King Slide是主导导轨套件供应商,Bizlink是AEC供应商,三星是Trainium2.5主要供应商,Trainium3会增加海力士和美光作为供应商 [10] 全球CoWoS需求 - 展示了2023 - 2026年各公司的CoWoS需求及占比情况,如英伟达、博通、AMD等,AWS + Alchip在2023 - 2026年的需求分别为9、16、5、40k wafers,占比分别为8%、4%、1%、5% [17] 全球HBM消费 - 2025年预计HBM消费高达160亿GB,展示了各AI芯片供应商产品的CoWoS容量分配、芯片出货量、HBM芯片密度、单位数量、总HBM需求等信息 [19][20] 相关公司项目情况 - AWS Trainium2的5nm设计服务由美满电子处理,Trainium3项目中,确信Alchip的3nm项目市场份额和生产时间,台积电的CoWoS产能分配将支持其发展,预计2026年初开始高产量生产,2026年Alchip预计营收15亿美元 [11][12][13] - 亚洲团队认为Alchip很可能继续赢得Trainium4的2nm项目,AWS可能很快做出早期决定,Trainium4预计2027年末小批量生产,2028年快速增长 [14] 行业覆盖公司评级 - 列出Greater China Technology Semiconductors行业覆盖公司的评级、价格等信息,如ACM Research Inc评级为O,价格为27.98美元;台积电评级为O,价格为1080新台币等 [79][81]