Workflow
晶圆级芯片,是未来
36氪·2025-06-30 07:49

大模型算力需求与硬件挑战 - 大模型参数规模已达万亿级别,计算能力需求两年内增长1000倍,远超硬件迭代速度 [1] - GPU集群面临两大瓶颈:单芯片物理尺寸限制晶体管数量,多芯片互联时数据传输延迟与带宽损耗导致性能无法线性增长 [1] - 当前AI训练硬件分为两大阵营:晶圆级集成专用加速器(如Cerebras WSE-3/Tesla Dojo)和传统GPU集群(如英伟达H100) [1] 晶圆级芯片技术突破 - 传统芯片受限于曝光窗尺寸(最大单Die约858mm²),晶圆级芯片通过不切割晶圆实现高密度互连,算力集群占地面积缩小10-20倍,功耗降低30%以上 [2][3] - Cerebras WSE-3采用台积电5nm工艺,集成4万亿晶体管/90万AI核心/44GB缓存,支持1.2PB片外内存,单片面积46,225mm² [6][8] - 特斯拉Dojo采用Chiplet路线,25颗D1芯粒集成在晶圆基板上,单芯粒645mm²含500亿晶体管,单Dojo系统算力达9Petaflops [10] 性能指标对比 - 计算性能:WSE-3 FP16精度达125PFLOPS,Dojo单Tile 362TFLOPS(BF16),H100单芯片60TFLOPS(FP64) [13] - 内存带宽:WSE-3达21PB/s,Dojo单Tile 900GB/s,H100 3.35TB/s [13] - 延迟优化:WSE-3单片架构降低通信延迟10倍,Dojo芯片间延迟100纳秒,H100依赖NVLink但延迟仍高于晶圆级系统 [16] 应用场景与成本分析 - 专用性:WSE-3擅长超大规模模型训练(如24万亿参数),Dojo针对自动驾驶视频流优化,H100通用性更强 [14][15][16] - 成本结构:Dojo单系统3-5亿美元,WSE-3单系统200-300万美元,英伟达H100单芯片成本显著更低但长期运营能耗高 [18] - 扩展性:晶圆级芯片面临可扩展性限制与高制造成本,GPU集群在初期部署成本上更具优势 [17][19] 行业技术演进方向 - 晶圆级芯片代表当前最高算力节点集成密度,英伟达NVL72通过提升GPU集群密度间接向该方向靠拢 [20] - 晶圆级技术路线分化:Cerebras采用单片集成,特斯拉选择Chiplet+先进封装,两者均规避传统GPU的互联瓶颈 [10][13][20]