Workflow
TPU v6e
icon
搜索文档
研报 | 受国际形势变化影响,2025年AI服务器出货年增幅度略减
TrendForce集邦· 2025-07-02 14:03
AI服务器市场需求 - 北美大型CSP是AI服务器市场需求扩张主力,tier-2数据中心和中东、欧洲主权云项目助力需求稳健 [1] - 2025年AI服务器出货量预计维持双位数增长,但2024年全球出货量增速微幅下修至24.3% [1] - 2025年整体服务器(含通用型和AI服务器)出货量预计年增5%,与先前评估一致 [4] 北美五大CSP动态 Microsoft - 2024年投资重点仍为AI领域,通用型服务器采购量受抑制 [1] - AI服务器主要采用NVIDIA GPU方案,自研ASIC Maia预计2026年新方案才明显放量 [1] Meta - 新数据中心落成推动通用型服务器需求显著增加,多数采用AMD平台 [1] - 积极布局AI服务器基础设施,自研MTIA芯片2026年出货量有望翻倍增长 [1] Google - 主权云项目和东南亚新数据中心推动服务器需求提升 [2] - 自研芯片布局比例较高,AI推理用TPU v6e已于2024年上半年逐步放量成为主流 [2] AWS - 自研芯片以Trainium v2为主力平台,已启动Trainium v3开发,预计2026年量产 [2] - 2025年自研ASIC出货量预计实现双倍增长,为美系CSP中最强 [2] Oracle - 侧重采购AI服务器和IMDB服务器,2024年更积极布局AI服务器基础设施 [3] - 整合云端数据库及AI应用,对美国主权云项目中NVIDIA GB Rack NVL72需求明显提升 [3] 行业技术趋势 - 北美CSP普遍加速自研ASIC布局,Google TPU v6e、AWS Trainium v2/v3、Meta MTIA等方案成为重点 [1][2] - 国际形势变化促使Server Enterprise OEM重新评估2025年下半年市场规划 [4]
这种大芯片,大有可为
半导体行业观察· 2025-07-02 09:50
核心观点 - 人工智能模型规模呈指数级增长,传统单芯片GPU架构在可扩展性、能源效率和计算吞吐量方面面临显著局限性 [1] - 晶圆级计算成为变革性范式,通过将多个小芯片集成到单片晶圆上提供前所未有的性能和效率 [1] - Cerebras WSE-3和特斯拉Dojo等晶圆级AI加速器展现出满足大规模AI工作负载需求的潜力 [1] - 台积电CoWoS等新兴封装技术有望将计算密度提高多达40倍 [1] AI硬件发展历程 - Cerebras里程碑包括2019年WSE-1、2021年WSE-2和2024年WSE-3的发布 [3] - NVIDIA产品线从1999年GeForce 256演进至2024年Blackwell B100/B200 GPU [3] - Google TPU系列从2015年初代发展到2024年TPU v6e [5] - 特斯拉于2021年宣布进入AI硬件领域推出Dojo系统 [5] 晶圆级计算优势 - 提供卓越带宽密度,特斯拉Dojo系统每个芯片边缘实现2TB/s带宽 [10] - 实现超低芯片间延迟,Dojo仅100纳秒,远低于NVIDIA H100的12毫秒 [10] - 物理集成度高,Dojo单个训练芯片集成25个芯片,传统方案需10倍面积 [11] - 台积电预计2027年CoWoS技术将提供比现有系统高40倍计算能力 [12] 主要AI训练芯片对比 - Cerebras WSE-3:46,225平方毫米面积,4万亿晶体管,90万个核心,21PB/s内存带宽 [15] - 特斯拉Dojo D1芯片:645平方毫米面积,1.25万亿晶体管,8,850个核心,2TB/s内存带宽 [16] - Graphcore IPU-GC200:800平方毫米面积,236亿晶体管,1,472个核心,47.5TB/s内存带宽 [17] - Google TPU v6e:700平方毫米面积,3.2TB/s内存带宽 [17] 性能比较 - WSE-3在FP16精度下峰值性能达125PFLOPS,支持24万亿参数模型训练 [25] - NVIDIA H100在FP64精度下提供60TFLOPS计算能力 [27] - WSE-3训练700亿参数Llama 2模型比Meta现有集群快30倍 [29] - WSE-3运行80亿参数模型时token生成速度达1,800/s,H100仅为242/s [29] 能效比较 - WSE-3功耗23kW,相同性能下比GPU集群能效更高 [75] - NVIDIA H100能效为7.9TFLOPS/W,A100为0.78TFLOPS/W [74] - WSE-3消除芯片间通信能耗,传统GPU互连功耗显著 [76] - 数据中心冷却系统占总能耗40%,液冷技术成为关键 [83] 制造工艺 - WSE-3采用台积电5nm工艺,4万亿晶体管集成在12英寸晶圆上 [66] - Dojo采用台积电7nm工艺,模块化设计包含25个D1芯片 [68] - WSE-3使用铜-铜混合键合技术,Dojo采用InFO封装技术 [71] - 两种架构均需应对良率挑战,采用冗余设计和容错机制 [67][70] 应用场景 - WSE-3适合大规模LLM、NLP和视觉模型训练 [54] - NVIDIA H100更适合通用AI训练和HPC应用 [54] - Dojo专为自动驾驶和计算机视觉工作负载优化 [57] - GPU集群在数据中心可扩展性方面表现更优 [54]
推理芯片:英伟达第一,AMD第二
半导体行业观察· 2025-04-03 09:23
如果您希望可以时常见面,欢迎标星收藏哦~ 来源:内容 编译自 IEEE ,谢谢。 在 MLCommons 发布的最新一轮机器学习基准测试结果中,基于 Nvidia 全新 Blackwell GPU 架构 构 建的 计算 机表现优于其他 所有计算机。但 AMD 的最新 Instinct GPU MI325 却与其 竞争对手 Nvidia H200相媲美。两者的可比结果主要来自对较小规模大型语言模型之一Llama2 70B(700 亿 个参数)的测试。然而,为了跟上快速变化的人工智能格局,MLPerf增加了三个新基准测试,以更 好地反映机器学习的发展方向。 MLPerf 针对机器学习系统进行基准测试,旨在提供计算机系统之间的同类比较。提交者使用自己的 软件和硬件,但底层神经网络必须相同。目前共有 11 个服务器基准测试,今年又增加了 3 个。 MLPerf Inference 联 合 主 席 Miro Hodak 表 示 , " 很 难 跟 上 该 领 域 的 快 速 发 展 " 。 ChatGPT 直 到 2022 年底才出现,OpenAI于去年 9 月推出了其首个可以推理任务的大型语言模型 (LLM),LLM ...