晶圆级芯片

搜索文档
清华大学研究团队在晶圆级芯片领域取得重要进展
半导体行业观察· 2025-07-20 12:06
晶圆级芯片技术突破 - 清华大学团队在晶圆级芯片领域取得三项关键研究成果,涵盖计算架构、集成架构和编译映射优化方法学,构建了完整的设计体系[1] - 团队联合产业界成功研制国内首台基于可重构AI芯粒的12寸晶圆级芯片验证样机,验证了技术可行性[1] - 晶圆级芯片采用整片晶圆(约40000平方毫米)制造超大芯片,通过高密度硅互连基板集成数十颗算力芯粒[4][8] 技术优势与性能表现 - 晶圆级芯片单机柜算力密度可达现有超节点方案的2倍以上,是目前算力节点集成密度最高的形态[8] - 计算架构优化方案在主流大模型训练中相比特斯拉Dojo实现2.39倍吞吐提升[13] - 集成架构设计方法使系统算力提升2.90倍,通信带宽提升2.11倍,内存带宽提升11.23倍[18] - 编译映射方案在大模型推理任务中相比GPU集群实现平均3.12倍性能提升[20] 国际发展现状 - 特斯拉Dojo晶圆级芯片集成25颗D1芯粒,单芯片拥有9PFlops算力和36TB/s带宽[24] - Cerebras WSE-3采用5nm制程集成4万亿晶体管,片上性能指标远超传统GPU[24] - 台积电推进晶圆级系统(SoW)技术布局,预计2027年实现量产[25] 技术特点与创新 - 提出"Tick-Tock"协同设计框架,实现物理拓扑与逻辑拓扑的优化耦合[12][16] - 建立纵向面积约束引导的跨物理层协同优化方法,解决异构资源集成难题[15][21] - 针对大模型推理设计分离式映射调度方法,优化KV cache管理策略[19][22] - 晶圆级芯片本质是"片上数据中心",涉及计算、存储、互连等多因素高度耦合[8]
晶圆级芯片,是未来
36氪· 2025-06-30 07:49
大模型算力需求与硬件挑战 - 大模型参数规模已达万亿级别,计算能力需求两年内增长1000倍,远超硬件迭代速度 [1] - GPU集群面临两大瓶颈:单芯片物理尺寸限制晶体管数量,多芯片互联时数据传输延迟与带宽损耗导致性能无法线性增长 [1] - 当前AI训练硬件分为两大阵营:晶圆级集成专用加速器(如Cerebras WSE-3/Tesla Dojo)和传统GPU集群(如英伟达H100) [1] 晶圆级芯片技术突破 - 传统芯片受限于曝光窗尺寸(最大单Die约858mm²),晶圆级芯片通过不切割晶圆实现高密度互连,算力集群占地面积缩小10-20倍,功耗降低30%以上 [2][3] - Cerebras WSE-3采用台积电5nm工艺,集成4万亿晶体管/90万AI核心/44GB缓存,支持1.2PB片外内存,单片面积46,225mm² [6][8] - 特斯拉Dojo采用Chiplet路线,25颗D1芯粒集成在晶圆基板上,单芯粒645mm²含500亿晶体管,单Dojo系统算力达9Petaflops [10] 性能指标对比 - **计算性能**:WSE-3 FP16精度达125PFLOPS,Dojo单Tile 362TFLOPS(BF16),H100单芯片60TFLOPS(FP64) [13] - **内存带宽**:WSE-3达21PB/s,Dojo单Tile 900GB/s,H100 3.35TB/s [13] - **延迟优化**:WSE-3单片架构降低通信延迟10倍,Dojo芯片间延迟100纳秒,H100依赖NVLink但延迟仍高于晶圆级系统 [16] 应用场景与成本分析 - **专用性**:WSE-3擅长超大规模模型训练(如24万亿参数),Dojo针对自动驾驶视频流优化,H100通用性更强 [14][15][16] - **成本结构**:Dojo单系统3-5亿美元,WSE-3单系统200-300万美元,英伟达H100单芯片成本显著更低但长期运营能耗高 [18] - **扩展性**:晶圆级芯片面临可扩展性限制与高制造成本,GPU集群在初期部署成本上更具优势 [17][19] 行业技术演进方向 - 晶圆级芯片代表当前最高算力节点集成密度,英伟达NVL72通过提升GPU集群密度间接向该方向靠拢 [20] - 晶圆级技术路线分化:Cerebras采用单片集成,特斯拉选择Chiplet+先进封装,两者均规避传统GPU的互联瓶颈 [10][13][20]