晶圆级计算

搜索文档
这种大芯片,大有可为
半导体行业观察· 2025-07-02 09:50
核心观点 - 人工智能模型规模呈指数级增长,传统单芯片GPU架构在可扩展性、能源效率和计算吞吐量方面面临显著局限性 [1] - 晶圆级计算成为变革性范式,通过将多个小芯片集成到单片晶圆上提供前所未有的性能和效率 [1] - Cerebras WSE-3和特斯拉Dojo等晶圆级AI加速器展现出满足大规模AI工作负载需求的潜力 [1] - 台积电CoWoS等新兴封装技术有望将计算密度提高多达40倍 [1] AI硬件发展历程 - Cerebras里程碑包括2019年WSE-1、2021年WSE-2和2024年WSE-3的发布 [3] - NVIDIA产品线从1999年GeForce 256演进至2024年Blackwell B100/B200 GPU [3] - Google TPU系列从2015年初代发展到2024年TPU v6e [5] - 特斯拉于2021年宣布进入AI硬件领域推出Dojo系统 [5] 晶圆级计算优势 - 提供卓越带宽密度,特斯拉Dojo系统每个芯片边缘实现2TB/s带宽 [10] - 实现超低芯片间延迟,Dojo仅100纳秒,远低于NVIDIA H100的12毫秒 [10] - 物理集成度高,Dojo单个训练芯片集成25个芯片,传统方案需10倍面积 [11] - 台积电预计2027年CoWoS技术将提供比现有系统高40倍计算能力 [12] 主要AI训练芯片对比 - Cerebras WSE-3:46,225平方毫米面积,4万亿晶体管,90万个核心,21PB/s内存带宽 [15] - 特斯拉Dojo D1芯片:645平方毫米面积,1.25万亿晶体管,8,850个核心,2TB/s内存带宽 [16] - Graphcore IPU-GC200:800平方毫米面积,236亿晶体管,1,472个核心,47.5TB/s内存带宽 [17] - Google TPU v6e:700平方毫米面积,3.2TB/s内存带宽 [17] 性能比较 - WSE-3在FP16精度下峰值性能达125PFLOPS,支持24万亿参数模型训练 [25] - NVIDIA H100在FP64精度下提供60TFLOPS计算能力 [27] - WSE-3训练700亿参数Llama 2模型比Meta现有集群快30倍 [29] - WSE-3运行80亿参数模型时token生成速度达1,800/s,H100仅为242/s [29] 能效比较 - WSE-3功耗23kW,相同性能下比GPU集群能效更高 [75] - NVIDIA H100能效为7.9TFLOPS/W,A100为0.78TFLOPS/W [74] - WSE-3消除芯片间通信能耗,传统GPU互连功耗显著 [76] - 数据中心冷却系统占总能耗40%,液冷技术成为关键 [83] 制造工艺 - WSE-3采用台积电5nm工艺,4万亿晶体管集成在12英寸晶圆上 [66] - Dojo采用台积电7nm工艺,模块化设计包含25个D1芯片 [68] - WSE-3使用铜-铜混合键合技术,Dojo采用InFO封装技术 [71] - 两种架构均需应对良率挑战,采用冗余设计和容错机制 [67][70] 应用场景 - WSE-3适合大规模LLM、NLP和视觉模型训练 [54] - NVIDIA H100更适合通用AI训练和HPC应用 [54] - Dojo专为自动驾驶和计算机视觉工作负载优化 [57] - GPU集群在数据中心可扩展性方面表现更优 [54]