亚马逊 AI 复兴：AWS 与 Anthropic 联合推进 Trainium 芯片千兆瓦级扩展——SemiAnalysis --- Amazon’s AI Resurgence_ AWS & Anthropic’s Multi-Gigawatt Trainium Expansion

行业与公司 * 纪要涉及亚马逊 AWS 云计算业务及其与人工智能公司 Anthropic 的合作关系[1][5][9] * 核心讨论围绕 AWS 在生成式 AI 时代的竞争态势、Trainium 芯片战略及数据中心扩张计划[5][9][15] 核心观点与论据 * AWS 当前面临云危机其在 GPU/XPU 云时代转型中落后于微软 Azure 和谷歌云市场份额被侵蚀[5][6][7] * 亚马逊通过投资 Anthropic（累计投资额达 40 亿美元）锁定核心客户 Anthropic 2025 年收入增长五倍至年化 50 亿美元成为 AWS 复兴的关键驱动力[12][40][41] * AWS 正以史上最快速度建设数据中心当前为 Anthropic 建设的超千兆瓦级容量（超 1.5GW）已进入竣工阶段预计 2025 年底推动 AWS 增速突破 20%[15][52][55] * Trainium2 芯片在绝对性能上落后英伟达（FP16 算力仅为英伟达 GB200 的 1/3.85 内存带宽为 1/2.75）但其单位 TCO 内存带宽优势完美契合 Anthropic 的强化学习路线图[21][72][77] * Anthropic 深度参与 Trainium 设计决策本质上将亚马逊 Annapurna Labs 作为定制芯片合作伙伴使其成为继谷歌 DeepMind 后唯一受益于软硬件协同设计的 AI 实验室[21][22][86] 其他重要内容 * AWS 的定制网络架构 EFA 在性能和使用体验上仍落后于英伟达 InfiniBand 及 RoCEv2 方案影响其多租户 GPU 集群竞争力[32] * Anthropic 大部分推理支出仍流向谷歌云（因其 TPU 的推理优势）且其云支出规模仅为 OpenAI 的一半制约 AWS 短期收益[45][47][50] * AWS 的 Bedrock 平台面临严重速率限制问题（新账户仅 2 RPM vs 宣传的 50 RPM）影响生产环境部署导致客户流失[139][140][141] * Trainium 供应链信号强劲但 2027 年产能规划可能超出 Anthropic 需求存在重复 Trainium1 和 Inferentia2 找不到外部客户的风险[66][125][126] * 亚马逊通过选择 Marvell/Achip 而非博通作为芯片设计伙伴并直接采购 HBM 以降低系统成本贯彻成本差异化战略[129][130][131] 数据与单位换算 * Anthropic 年化收入从 10 亿美元增至 50 亿美元（增长五倍）[12][41] * AWS 为 Anthropic 建设的数据中心 T 容量超 1.5GW[52] * 英伟达 GB200 芯片 FP16 算力 2500 TFLOP/s Trainium2 为 657 TFLOP/s（差距 3.85 倍）[72] * 英伟达 GB200 NVL72 内存带宽 57TB/s Trainium2 为 18TB/s（差距 3.1 倍）[74] * 亚马逊对 Anthropic 投资额：初始 12.5 亿美元（可扩至 40 亿美元）后续追加 40 亿美元[40]